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Pruf ungsantrag gem. § 44 PatG ist gestellt 

@) Kryptographie-Verfahren und Kryptographie-Prozessor zur Durchfuhrung des Verfahrens 

Mit der wachsenden Verbrettung elektronischer Verfah- 
ren der Kommunikation ist die Forderung nach Geheimhal- 
tung der Kommunikattonsdaten und der Absenderauthenti- 
zitat unverztchtbar. 

Die Erfindung geht aus von dem Public-Key-Code-Verf^hren 
in seiner Realisierung nach dem RSA-VerFahren. Es wird ein 
Kryptographie-Prozessor geschaffen. der Oaten nach dem 
RSA-Verfahren ver- und/oder entschlusselt und den Anfor- 
derungen einer digitalen Schnittstelfe eines ISDN<Netzes 
genugt. 

Der Prozessor ist in VLSI-Technik aufgebaut und besitzt Im 
Sinne einer wirtschaftlichen Anwendbarkeit nur geringe 
Abmessungen und ermdglicht trotzdem btsher nicht erreich- 
te Verschlusselungsraten. 
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Patentanspriiche 

1. Kryptographie-Verfahren nach der Pubiic-Key-Code-Methode von Rivest, Shamir und Adleman (RSA- 
Verf ahren), umf assend die Anwendung der nadifoigenden Operadonen zur Chiffrierung bzw. VerscMusse- 
Iiing von Nachrichten: 

— Auswahl zweier groBer Primzahlen p und q und einer wcitcrcn groOen Zahl E, 

— Bildung des Produktes N ^ p - q, 

— Umwandlung der zu chiffrierenden Nachrichten in eine Kette von vorzugsweise gleichlangen 
Gliedem ft deren Werte als Zahl kJeiner als der Wert der Zahl Nisi, 

— ChlfFrierung dieser Glieder durch die jeweilige Erhebung in die E-te Potenz mit anschliefiender 
Bildung von Modulo JV, (d. h, es entstehen die Zahlen G = pf Moduio A/), 

— wobei die Potenzierung durch eine Folge von Muitiplikationen ersetzt wird und nach jeder Multipli- 
kation sofort erne Modulo-Operation ausgefuhrt wird, (d. es wird im Restklassenring uber N mulii- 
pliziert), 

— wobei die Multiplikation in Einzehchritte zerlegt wird, so daB aus der Muldplikation eine Folge von 
Additionen entsteht, und 

— wobei die Modulo-Operation nach dem klassischen Divisionsalgorithnius durch eine Folge von 
Subtraktionen ersetzt wird, 

gekennzdehnet dutch die Anwendung eines ersten Look-Ahead-Verfahrens (Vorausberechnungsverfah- 
ren) fur die Dhrision (Fig, 5), so dafi audi die Multiplikation mit einem zweiten Look-Ahead-Verfahren 
(Fig. 4) durchf Qhrbar isL 

2- Kryptographie-Verfahren nach Anspnich 1, gekennzcichnet durch Look- Ahead- Algorithmen, mit denen 
die maximal notwendige Anzahl von Additionen bzw. Subtraktionen reduziert wird. 

3. Kryptographie-Verfahren nach Anspnich 2, dadiu-ch gekennzcichnet, daB das erste Look-Ahead-Verfah- 
ren fur die Modulo-Operation so gewahit ist, daB der wahrscheinlichkeitstheoretische Erwartungswert der 
Anzahl der beim ersten Look-Ahead-Verfahren ubersprungenen Operationen genau so grofl ist wie der 
wahrscheinlichkeitstheoretische Erwartungswert, der beim zweiten Look-Ahead-Verfahren fur die Multi- 
plikation ubersprungenen Operationen. 

4. Kryptographie-Verfahren nach Anspruch 3, gekennzcichnet durch erne Entkopplung der beiden Look- 
Ahead-Verfahren, wobei jeder der beiden Look-Ahead-Verfahren einen Schiebebetrag (sz bzw. sn) erzeugt, 
der angibt, um wieviel Bits das Zwischenergebnis (2) der Multiplikation bzw. der Modulus (A/) pro Zyklus 
verschoben wird, wobei das Zwischenergebnis {Z^ absolut um £z-Bits und der Modulus (A/) relativ zum 
Zwischenergebnis (2) um sii-Bits verschoben wird, 

5. Kryptographie-Verfahren nach einem der vorhergehenden Anspruche 1—4, gekennzeichnet durch die 
Zusammenfassung der Addition bzw. Subtraktion des Multiplikations- und des Modulo-Schrittes zu einer 
einzigen Operation (3-Operanden-Addition), wobei pro Schritt nicht zwei, sondem drei Operanden wie 
folgt addiert werden: 

A[^ 



A^[max + ll„J!ri/+ \\ ;ir[01 « 0 

K[max + U =0 KM HO], 

und wobei diese 3-Operanden- Addition in zwei Abschnitte unterteilt wird. 

6. Kryptographie-Verfahren nach Ansprudi 5, dadurch gekennzeichnet, daB der erste der beiden Abschnitte 
so gewahit ist, daB an jeder bintren Stelle eine Sunune der drei Bits der Operanden A, B und Cgebildet wird, 
wobei die Summe von A [/J, B[[^ und C[i] zwischen O und 3 liegt, sie also binar mit den zwei Bits 51 und ^ 
darstellbar ist, und wobei aus den zwei Summenbits in folgender Weise zwei neue Zahlen X und Y 
zusammengestelit werden: 

Y[i\ : - niederwertigcs Bit von A [i] + -f- C[j1 

Y\max -I- 1] : « 0, 

X\i + 1] : « hoherwertiges Bit von A [/] + B[i\ + C[i\ und 
X\p\ : « 0. 

(/ — 0,...,/naji^ 

7. Kryptographie*Verf ahren nach Anspnich 5 und 6, dadurch gekennzeichnet, daB der zweite Abschnttt so 
gewahit ist, daB die Zahlen A* und yin an sich bekannter Weise mit Cairy (Obertrag) addiert werden, und 
dafi demgegenOber die Bitaddition ohne Carry des ersten Absdinitts zu einem Zeitpunkt ausgefflhrt wird, in 
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dem die nonnalc Additionslogik durch ein Precharge-Signal (Vorbereitungssignal) auf den nachsten Zyklus 
vorbereitet wird. 

a. Kryptographie-Verfaliren nach Anspnich 7. dadurch gekennzetchnet, daB die Addition folgende Schritte 
umfaBt: 

a) Aufteilungder langen bzw. groBen Zahlen A'und Y'm kleme Blocke (32X 

b) Gleichzeitige Berechnung der Carry-Bits innerhalb der Blocke (32) nach cincm an sich bckanntcn 
Cany-Look-Ahead- Verfahren, und 

c) Weitergabe des Carry-Bits je cines Blockes zum jeweils nachfolgenden Block, fur den Fall, daB sich 
die Carry-Bits benachbarter Blocke nicht beeinflussen. 

9. Kryptographie- Verfahren nach Anspruch 8, dadurch gekennzeichnet, daB ein durch die Blocke (32) 
aktivierbarer Unterbrecher (62) vorgesehen ist, der fur den Fall, daB sich Carry-Bits uber benachbarte 
Blocke hinaus beeinflussen, die erforderliche Zeit fur deren Berechnung und Berucksichtigung bereit halt 
(Fig. 14). 

10. Kryptographie-Prozessor zur Durchffiihrung des Kryptographie- Verfahrens. gekennzeichnet durch eine 
AneinanderreOiung von fOr die Berechnung der einzelnen Operadonen spezialisierten Elementarzellen (10), 
wobei jeweils mehrcre Elementarzellen (10) stufenweise (Fig. 8) zu grdBeren Blocken (32; Fig. 9) zusam- 
mengefaBt sind, und wobei jedem Block (28; 32) ein baumartiges hierarchisches Carry-Look-Ahead-Ele- 
ment (30) zugeordnet ist, wodurch im Normalfall gewahrleistet ist, daB die Zeit zur Addition zweier Zahlen 
unabhangig von der Lange dieser Zahlen ist, und wobei in jedem Block (32) der Obertrag parallel durchge- 
fflhrtwird 

11. Kryptographie-Prozessor nach Anspruch 10, dadurch gekennzeichnet, daB die Elementarzellen (10) die 
folgenden Register und Logik-Bauteile enthalten: 

— ein Register (12) fur den Multipiikator (A^, 

— ein Code-Register (14), 

— ein Datum-Register (16), 

— em UD-Shift-Register (18), in dem wahrend der Berechnung ein Vielfaches des Modulus (A/) steht, 
und das auBer der Speicherfunktion die Fahigkeit besxtzt, den Modulus (N) in einem Schritt in eine der 
beiden Richtungen urn mehrere Stelien zu verschieben. 

— einen Barrel-Shifter (20), der das Ergebnis der Addition, ein Zwischenergebnis (2) um mehrere Bits 
versdiieben kann, 

— einen Bitaddierer (22) ohne Obertragsbit (Carry-Bit), der den ersten Schritt der 3-Operanden-Ope- 
ration ausfQhrt, 

— einen Volladdierer (24), der die beiden im Bitaddierer (22) gewonnenen Zahlen addiert und als ein 
Zwischenergebnis (2) speichert, und 

— ein Carry-Look-Ahead-Element (26), welches ein Obertragsbit berechnet 

12. Kryptographie-Prozessor nach Anspruch 11, dadurch gekennzeichnet, daB alle Kompohenten (12—26) 
parallel arbeiten. 

13- Kryptographie-Prozessor nach etnem der vorhergehenden Anspruche 10—12, dadurch gekennzeichnet, 
dafi mehrere Blocke (28) von Elementarzellen (10) zu grSBeren Blocken (32) zusammengefaBt sind, wobei 
der Obertrag seriell von einem Block zum nichsten weitergegeben wird, und wobei die Carry-Look- Ahead- 
Hemente (30) der Blocke (32) wiederum baumartig zusammengestellt werden. und wobei auf jedem Qberge- 
ordneten Carry-Look-Ahead-Element (30) eines Blockes (32) der Obertrag gleichzeitig berechnet wird, und 
daB ein sich dabei ergebendes Signal gegebenenfalls einen Unterbredier (62) ansteuert, wobei der Unter- 
brecher (62) die von den Carry-Look- Ahead-Eiementen (30) kommenden Signale verarbeitet und die Taktc 
for etwa acht Zyklen unterbricht, falls ein Carry-Look- Ahead-Element eines Blockes (32) ein Signal gibt 

14. Kryptographie-Prozessor nach einem der vorhergehenden Anspruche 10—13, gekennzeichnet durch 
erne MultMod-Steuercinhcit (36; Fig. 12) zur Steuerung der Funktionen der Elementarzellen (10). wobei die 
MultMod-Steuereinheit (36) folgende Bestandteile umfaBt: 

— cine Schiebelogik (50) fur die Multiplikation, 

— cine Schiebelogik (52) fflr die Modulo-Operadon, 

— einen Vergleicher (38). der die obersten Bits des Zwischenergebnisses (Z) des VoUaddiercrs (24) mit 
den obersten Bits von 1/3, 1/6, 1/12 usw. von Modulus N parallel mitcinander vergleicht, 

— einen ersten Begrenzer (54) fur die Multiplikation, der den maximalen Schiebebetrag des Zwischen- 
ergebnisses (2) im Bedarfsfall begrenzt, und einen zweiten Begrenzer (56) fur die Modulo-Operation, 
der den maximalen Schiebebetrag des UD-Shift-Registers (18) im Bedarfsfall begrenzt, und 

— zwei Zahler (58, 60^ von denen der erste Z&hier (58) die noch zu verarbeitenden Bits des Registers 
(12) und von denen der zweite Z^hler (60) die Position von Modulus A^in einem Puffer (34) angib t 

15, Kryptographie-Prozessor nadi einem der vorhergehenden AnsprQche 10—14, gekennzeichnet durch 
einen als Puffer (34) ausgebildeten Elementarblock mit einer Lange von ca. 20 Bits, der die Look- Ahead- Al- 
gorithmen fOr die Multiplikation und fQr die Modulo-Op radonen von inander entkoppelt, ind m A/in den 
Puffer (34) hineinlauf t und wobei die MultMod-Steu reinheit (36) durch die Begrenzer (58, 60) gewahrlei- 
stet. daB der Modulus A^nicht Qber die Puffergrenze nach oben oder unten hinausItufL 
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16. Kryptographie-Prozessor nach Anspruch 10, dadurch gekennzeichnet, dafi jeweils zwanzig Elementar- 
zeiien (10) zu jeweils einem 20-ZeiIen-Btock (32) zusammengef aBt sind. 

17. Kryptographie-Prozessor nach Ansprudi 10, gekennzeichnet durch eine Verschlussdungseinheit (40), 
einen variabel gestaitbaren Registerblock (46). elner Eingabe/Ausgabeeinheit (44) irnd einer Hauptsteuer* 
einheit (42), die uber Datensammelteitungen miteinander in Wirkverbmdung stehen (Fig* 11). 

Beschreibung 

Mit der standig wachsenden Verbreitung elektronischer Verfahren der Konununikation and der Informa- 
tions-Spetdierung ist die Forderung nach Geheimhaltung, insbesondere der Geheimhaltung wichtigcr Doku- 
mente, wie z. B. Bankuberweisungen, Vertrage und dergleichen, unverzichtbar geworden. 

Wahrend das Problem des Datenschutzes in der Gesetzgebung bereits eine gewissc Berucksichtigung gef un- 
den hat, sind die technischen Probleme zur Druchfuhrung des Datenschutzes mittels der Geheimhaltung von zu 
abennittelnden Daten bisher noch hochst unbefriedigend gelost Die Obertragung von Daten uber Funk oder 
Breitbandkabel erfolgt mehr oder weniger offentlick Jedenfalls wird fur die Vertrauiichkeit der Obertragung 
keine Garantie Qbemommen. Die Gefahr des MiBbrauches ist dabei keinesfaJIs auszuschlieBen. 

Hinsichtlich der Obertragung von Daten uber Funk oder Kabel ist diese Gefahr mit technischen Mittein nicht 
zu beseitigen. Der Benutzer selbst muB fur die erforderliche Sicherheit sorgea Hierzu gehort auch die Sicherung 
der Authentizitat des Absenders sowie der Manipulationsschutz der Nachricht 

Aus Sicherheitsgrunden gilt es deshalb, die zu ubertragenden Informationen, Daten, Texte usw. zu verschlus- 
seln, d. lu derartig umzuwandeln, daB ein Unbefugter sie nicht verstehen kann. Dabei kann allgemein gesagt 
werden, daB eine VerschlOsselung um so sicherer ist, je komplizierter die der Verschlusselung zugrunde liegen- 
den OperaUonen sind 

Bei den als klassisch zu bezeichnenden Verschlusselungs-Verf ahren handelt es sich um symmetrische Metho- 
den. bei denen der Chiffrier- und Dechiffrier-Schiussei gleichartig, d. h. identisch oder invcrs sind, Solange der 
diesbezugliche Schlussel geheim ist, kann die entsprechend chiffrierte Nachricht offentUch ubertragen werden. 
Danut aber der Empf anger diese Nachricht verstehen kann, ist es erforderiich, daB dem Empf anger der geheime 
Kodier-Schlussel durch einen vertrauenswurdigen Boten zugesteUt wird. Diese Art der Zustellung des geheimen 
SchlQssels ist umstandiich und zeitraubend, und zwar besonders dann, wenn mehrere Empfanger mit einer 
vertraulichen Nachricht versorgt werden sollen. Im ubrigen mutet es im elektronischen Zeitalter anachronistisch 
aut Kuriere fur die Obermitdung von geheimen Chif frier-Schlusseln einzusetzen. 

Demgegenuber stellen die Cfaiffrier-Methoden nach dem sogenannten Public-Key-Code-Verfahren gedank- 
tich einen grofien Fortschritt dar. Diese Public-Key-Code-Verf ahren sind durch eine asymmetrische Verschlus- 
selung gekennzeichnet Das bedeutet. dafi zum Ver- und EntschKisseln zwei verschiedene SchlQssel benutzt 
werdea Bei den asymmetrischen Verfahren ist sichergestelit, daB der eine Schlussel sich nicht ohne Zusatzinfor- 
mation aus dem anderen berechnen laQt E'mer der beiden Schlussel kann daher verdffentlicht werden. Aus 
diesem Grunde haben diese Verfahren die bezeichnung "Public-Key-Code- Verfahren" erhalten. 

Will ein Benuuer der offentIk:hen Netze mit anderen Teilnefamem mittels eines Pubiic-Key-Code-Verfahrens 
Nachrichten austauschen, so muB er ein einziges Mai zwei Schlussel E und D erzeugen. Den SchlQssel E zum 
Verschlusseln macht er uber ein Offentliches Register alien anderen Benutzern zuganglich, den Schlussel D zum 
Entschl Ossein halt er geheim. Daruber hinaus werden bei manchen Verfahren auch die aligemeinen Rechenvor- 
sdiriften der Verschlusselung bekanntgegeben, ohne dadurch die Sicherheit der Geheimhaltung des Inhalts der 
versdilasselten Nachrichten zu ge^hrden. Auch ist <&e Authentizitit der Nachricht kein Problem. Die Sicherheit 
der as3rmmetrischen Methode beruht darauf, dafi es praktisch unmdglich ist, D aus Em berechnen. 

Jeder, der einem anderen Benutzer eine Naduicht zusenden mdchte, besorgt sich den Schlussel E aus dem 
vereff entlkAten Register, verschlusselt damit die Nachricht und ubertragt den so erhaltenen Code im unsicheren 
(gegebenenfalls digitalen) Netz, bcispielswetse dem dffentlichen Telefonnetz. Der adressierte Benutzer (Emp- 
^ger) entsdilusselt den empfangenen Code mit seinem geheimen Schlussel D und erzeugt so die ursprQngliche 
Nachricht Sowohl zur Obermittlung eines Schlussels als auch zur Obermittlung der Nachricht selbst erubrigt 
sich somit ein sicherer ObertragimgskanaL Der adresderte Benutzer erhalt ausschlieBlich Nachrichten, die mit 
seinem eigenen SchlOssei verschlusselt worden sind Daher braucht er nur auf den eigenen SchlQssel Dzuzugrei- 
fen. 

Bei diesen Verfahren wird somit eine leichte VerfQgbarkeit der Schlussel erreicht Ebenso wird der Benutzer 
der Verwaltung eines umfangreicben persOntichen ScUQsselregisters enthoben. Die SchiOsselverwaltung erfolgt 
nur einmaL und zwar zentral im jedermann zugfinglichen Register, z. B. nach Art elektronischer Telefonbucher. 
Mit dieser Obertragimgsprozedur kdnnen alle Arten von Obertragungsnetzen (z. B. *ISDN^ sicher gemacht 
werden. 

Bei der beschriebenen AusfQhrungsform des Public- Key-Code- Verfahrens ist noch nicht die Sicherung der 
Absenderauthentizitat sowie der Manipulationsschutz der Nachricht gew^leistet Prinziptell ist es aber mCg- 
lich, flLkchungssichere "Unterschrif ten*' in digitaler Form zu Qbermitteln. und zwar dann, wenn die Reihenfolge 
der Anwendung der SchlQssel E und D vertauschbar ist. Der Absender kann dann eine Signatur erzeugen, die 
zusammen mit der verschlQssetten Nachricht Qbertragen wird, Di Signatur ist ein mit dem geheimen Absender- 
SchlQssel D verschlQsselt r *'Extrakt" der Nachricht Zur OberprOfung der Absenderauthentizitdt erzeugt der 
Empfftnger aus der rekonstruierten Nachricht ebenfails den Extrakt, entschlQsselt die Signatur mit dem dffendi- 
chen AbsenderschlQssel E und vergleicht beide. Smd sie identiscl^ so muB die Nachricht vom angegebenen 
Absender stammen, da nur der Absender den zum AbsenderschlQssel Epassenden SchlQssel D kennt, mit dem 
die Signatur verschlQsselt wurde. 

Mit der Signatur ist die Na^uicht auch vor Manipulationen geschotzt. Der Absender kann di Qbertragene 
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Nachridit nicht abstreiten, da der Erapfanger irai Besitz eincr Signatur dieser Nachricht ist Andererseits kann 
dcr Empfanger die Nachricht nicht verandem, da er fur die verfalschte Nachricht keine Signatur erzeugen kann, 
Diese hkngt wegen des Extraktes nicht nur vom Absender, sondem auch von der Nachricht ab. Hierdurch wird 
ein hdherer Schutz als durch die Unterschrift imter einem I>okiiment gewahrleistet 

Das wohl bekannteste Public-Key-Code- Verfahren ist das nach den Anfangsbuchstaben seiner Erfmder 
Wvest. Shamir und Adleman bekannte RSA-Verfahren. Die Sicherheit dieses RSA-Verfahrens beniht darauf, 
daB es praktisch unmoglich ist, groBe Zahlen (z. B. 200 Dezimalstellen) zu faktorisieren, d. h. alle Primzahleri zu 
finden, durch die diese groBe Zahl ohne Rest geteilt werden kann. 

Das RSA-Verfahren funktioniert folgendermaBen: Zunachst wahlt jedcr Benutzer des RSA-Systems zwei 
groBe Primzahlen p und q und eine weiterc groBe Zahl £1 Die Zahlen kdnnen z. B. niit dem Zufallszahlen-Gene- 
rator eines Rechncrs erzeugt werden. Zur Beantwortung der Frage, ob es sich bei der jeweils vorliegenden Zahl 
um cine Primzahl handelt oder nicht, stehen Algorithmen zur Verfugung (siehe z. B.: Pomerance, C "Recent 
Developments in Primality Testing^, Department of Mathematics, University of Georgia, in The Mathematical 
Intelligence!^ S. 97 - 1 04. Vol 3. Nn 3, 1981> 

Das RSA-Verfahren schreibt eine bestimmte Mindestlange fur die Primzahlen nicht vor. Kurze Zahlen 
macben den Algorithmus schneller, vergrSBem aber die Gefahr, daB das Produkt der Primzahlen faktorisiert 
werden kann, Bei langen Zahlen ist es umgekehrt 100 Dezimalstellen werden allgemein als ein guter Kompro- 
mifi angesehen. TVist das Produkt aus den Primzahlen p und q. Das Zahlenpaar {E, N) ist der offentliche Schlussel, 
wahrend die Primzahlen p und q ausschlieBlich dem Empfanger einer Nachricht bekannt sind. 

Zur Chiffrierung der Nachricht verwandelt der Absender zunachst seinenText in eine Kette von Dezimalzah- 
len. Diese Kette wird dann in gleichlange Glieder P-hi < N zerlegt Diese Glieder werden sodann einzeln 
chiffriert, indem man sie jeweils in die E-te Potenz erhebt und dann modulo N bildet, d. h^ es entstehen die 
Zahlen C « /f modulo Diese Zahlen G werden dann uber einen unsicheren Kanai geschickt Zur Auswer- 
tung dcr Zahlen ist es erforderiich. ihren Exponenten modulo <P(N) zu berechnen, wobei <1^N) = 
(p — 1) • (<7 — 1) isL Da ausschlieBlich der Empfanger die Primzahlen p und q kennt, kann nur er den Dechiffrier- 
Schlussel modulo <P(A/) berechnen. Zu diesem Zweck erhebt dcr Empfanger jede empfangene Zahl G 

in die i>te Potenz und reduziert modulo N, Da G modulo N ^ modulo AAund £D modulo C(N) = 1, ergibt 
die Operation Ff° modulo Nwieder die Zahlenblocke des Klartextes. 

AuBer den als "klassisch" bezeichneten Chiffrier-Verfahren zeigen auch die bisher bekanntgewordenen Pu- 
blic-Key-Code-Verfahren gravierende Mangel Sowohl software- als auch hardwaremiBige Realisierungen 
scheiterten bisher stets an dem Immensen Aufwand und den damit verbundenen hohen Kosten. 

Nach dem bishereigen Stand der Chip-Entwicklung ist es nicht moglich, einen Universai-Rechner softwarema- 
Big mit dem RSA-Algorithmus (bei Zugrundelegung von 200 Dezimalstellen) so zu programmiercn, daB akzep- 
Uble Verschlusselungsgeschwindigkeiten bzw. VerschlQsselungsraten erreicht werden. 

Auch kann die RSA-Funktion (Potenzierung mit anschKeBender Modulo-Operation) nicht direkt in ein VLSI- 
Layout (VLSI = Very Large Scale Integration) umgesetzt werden, weil es keine direkten Potenzierschaltungen 
^bt. Die geschilderte Erkenntnis hat bereits seit mehreren Jahren zu dem Wunsch nach speziellen Hardware- 
L5sungen gefuhrt, um die Potenzierung so in Einzelschritte zu zerlegen, daB eine hinreichende Verschlusse- 
lungsgcschwindigkeitbzw.-Ratemdglichist . , . 

Die heute bekannten Realisierungen der Public-Key-Code- Verfahren benotigen aber sehr viel Rechenzeit 
Software-Ldsungen haben Ver- bzw. Entschlusselungsraten von 10 bis 20 Bit/sec Auch erste bekannte Hardwa- 
re-L5sungen erreichen nicht mehr als t 200 Bit/sec Die einzige bisher reafisicrte Ein-Chip-Losung stammt von 
Rivest (Rivest, R. U "A Description of a Single-Chip In^lementation of the RSA Qphei^ , Laboratoor for 
Computer Sience, MIT. Cambridge, Massachusetts, in -LAMBDA Magazine T, S. 14-18. Nr. 3. 1980). Bei 
diesem Vorschlag wurde eine relativ einf ache Entwurfsmethode gewahlt die insbesondere darin besteht. daB nut 
einer herkommUchen arithmetisch-logischen ElementarzeUe eine 512 Bit breite arithmetisch-logische Emheit 
(ALLO konstruiert wurde. Diese arithmetisch-logische Bnheit ist so aufgebaut, daB mit ihr sehr verschiedene 
Operattonen ausgef Qhrt werden konnen. Die in Kauf genommene Redundanz schlagt sich in emer Verschlusse- 
lungsrate von 1 200 Bit/sec nieder. Dabei ist eine 4 jmi-NMOS-Technologie benutzt worden (Extrapoliert auf 
eine 2 jim-CMOS-Technologie wQrde ach bei einer SchlQssel-Lange von 660 Bits cine Verschlusselungsrate im 
Bcrcich von 2 500 Bit/sec. ergeben). . . vi • u 

Diese LOsung ist *m der Praxis allerdings nicht akzeptabel da die Schnittstellen der digitalen Netze mit sehr 
viel hoheren Datenraten arbeiten, z. B. arbeiten die ISDN-Sdmittstellen mit 64 Bit/sec 

Es ist auch schon ein Kxyptographie-Prozessor vorgeschlagen worden. der aus zwei Chips besteht, und mit 
deren Hilfe 336 Bit lange Zahlen des RSA-Algorithmus aufgearbeitet werden konnen (Rieden, R, J. B. Snyder, 
R. J. Widman and W. J. Barnard, "A Two-Chip Implementation of the RSA Public- Key Encryption Algorithm", 
Digest of Papere for the 1982 Government Microcircuit Applications Conference (November 1982X 24— 27). 

Dcr schnellste bekannte RSA-Prozessor ist mit dem Vorschlag von NEC/Miyaguchi gegeben (Miyaguchi. S., 
•Fast Encryption Algorithm for the RSA Cryptographie System', Proceedings COMPCON 82). Er arbeitet pro 
Zyklus 8 Bits des Multiplikators ab und erreicht dabei eine Geschwindigkeit von 29 000 Bits/sec« Da er aber fur 
die praktische AusfOhrung die hohe Anzaht von 333 Chips bendtigt. ist er in wirtschaftlicher Hinsicht naturlich 
vdllig indiskutabeL i • ^ 

Ein gencreller Nachteil der Mehr-Chip-Implementierungen besteht nicht nur in den proportional mit der 
Anzahl der crforderlichen Chips steigenden Hardware-Kosten. sondem vor allem in der fehlenden Gewahr fur 
Sicherheit Wenn die Signale, die von einem zum anderen Chip Qbertragen werden, zuganglk:h sind, so kann 
anhand der flbertragenen Signale dcr Geheimcode gebrochen werden. Dehalb ist es aus GrOnden dcr Krypto- 
graphic-Sichcrheit wcsentlich. daB alle Kryptographlc-Algorithmcn mdglichst von einem einzigen Chip durch 
einen Tresor geschOtzt werden kOnntea 
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InderDE-PS32 28018ist ein Schlusselsystem fur RSA-Kryptographie beschrieben, welches ebenfalls einen 
exxrem hohen Hardware-Bedarf erfordert Im Vergleich mit dem ursprunglichen RSA-Algorithmus soil bei dem 
bekannten Schlusselsystem die Verschlusselungsrate um den Faktor 4 erhdht werden, was aber nur dne 
bescheidene Yerbesserung darstellt Zu diesecn Zweck wird eine f este Anzahl von vier Bits gleichzeitig verarbei- 
tet, wofur mehrere Multiplikatoren erforderlich sind, und wofOr insgesamt 14 Addierer angegeben werdea 

Theoretisch ist es zwar denkbar, daB der Prozessor fur das bekannte Schlusselsystem gemaB der DErPS 
32 28 018 viermal so schnell wie die direkte Verwendung des ursprunglichen RSA-Algorithmus ist, da aber die 
Signalwege sehr viel groBer sind als bei einer Abtastung von jeweils einem einzigen Bit, ist in der Praxis kaum ein 
effektiver Zeitge winn zu erwartea 

Auch ein gedanklich angenommener Universal-Chip mit einer lOO-fachen Rechnerdichte ware ubrigens nicht 
in der Lage, den bekannten RSA-Algorithmus abzuarbeitea Aus diesem Grunde kame, wenn uberhaupt, mu- ein 
Spezial-Kryptographie-Chip in Frage, allerdings wurden sich dabei erhebliche Kuhlprobleme einstellen, denn 
bei derartig hochspezialisierten Chips waren — im Unterschted zu Universalchips — simtliche Transistorfunk- 
tionen fast standig im Einsatz. Dies ist mit betrachtlichen Verlustleistungen verbunden, die wegen der angenom- 
menen 100-fachen Rechnerdichte aus eine 100-fache (Verlust-) Leistungsdichte zur Folge haben wurde. 

DaB die damit verbundenen Kuhlprobleme nicht unbetrachtlich sind. zeigt der aufwendige Vorschlag, die 
Kuhlung mittels verflussigter Edelgase durchzufuhren, die durch im Silizium-Chip fuhrende Bohrungen hin- 
durchflieBen. Andererseits ist zu berucksichtigen,daB sich als Folge einer ungenugenden Kuhlung eine erheblich 
verkurzte Lebensdauer der Chips und eine erhohte Fehlerquote bei den Verschlusselungsoperationen ergibt 
AuBerdem wurde der angenommene Universal-Chip mit der hohen Rechnerdichte von den raumlichen Abmes- 
sungen her so groB ausf alien, daB eine praktikable Anwendung auBer Betradit bleiben muBte. 

Hier greift nun die Erfindung ein, der die Aufgabe zugrunde licgt, cin Kryptographie-Verfahren anzugeben, 
welches bei hinreichender Sicherhett eine so schnelle Rechengeschwindigkeit ermoglicht, daB eine kommerzielle 
praktikable Anwendung des an sich bekannten RSA-Verfahrens mdglich ist AuBerdem soil durch die Erfindung 
ein Kryptographie-Prozessor zur Durchfuhrung des Verfahrens geschaffen werden, der die gestellten Anforde- 
rungen bei kleiner handlicher Bauweise bzw. Chip-Abmessungen ennoglicht 

Dieses Ziel erreicht die Erfindung verfahrensmaBig bei dem im Oberbegriff des Anspruchs 1 genannten 
Kryptographie- Verf ahren durdi die im kennzeichnenden Teil des Anspruchs 1 genannten Merkmale, wobei den 
Anforderungen einer di^talen Schnittstelle eines ISDN-Netzes genQgt wird 

Ein wesentlicher Gesichtspunkt der Erfindung ist die neuartigc Anwendung eines Look-Ahead-Algorithmus 
fur die Division. Durch diesen Schritt wird es namlich mdglich, ein Look-Ahead-Verfahren auch bei der Multipli- 
katton anzuwenden. Somit sind beim Abarbeiten mehrerer Bits nur einfache Additionen und Subtraktionen 
erforderlich, d. h. ein zusatzikJies Multiplizieren kann entf alien. 

Die Vorteile des neuen Verfahrens basieren also im einzelnen darauf, daB der gesamte Kryptographie-Algo- 
rithmus suksessive so weit in kieinere Schritte zerlegt wird, bis jeder Rechenschritt m einfacher Weise direkt mit 
einer Hardware-Auslegung korrespondiert 

Vorteiihaf te Weiterbildungen und zweckmafiige Ausgestaltungea der Erfindung sind m den Unteranspruchen 
angegeben. 

Jeweils bei der Gegenuberstellung der emzelnen Operationen zeigen sich bereits die Vorteile der erfindungs- 
gemaBcn Anordnung gegenuber dem Stand der Technik. Durch die Umwandlung des Exponenten*Algonthmus 
in eine Folge von Multiplikationen, wobei nach jeder einzelnen Multiplikation eine Modulo-Operation ausge- 
f uhrt wird, wird verhindert, daB die Zwischenergebnisse nicht, wie bei der Potenzierung Qblich, ins Astronomi- 
sche anwachsen (Dund Ehaben je 200 Dezimalstellen). 

Dadurch, daB darQberhinaus die Multiplikation in Einzelschntte zerlegt wird, bei der die Multiplikation in eine 
Folge von Additionen umgewandelt wird, kann die Berechnung schneller erfolgen. So wird zur Realisierung 
auBerdem weniger Flache auf dem Chip bendtigt 

Die weiter unten erlauterte Reduktion der Modulo<Operation in eine Folge von Subtraktionen wird mit 
derselben Additionslogik berechnet, denn eme Subtraktion kann als Addition mit umgekehrten Vorzeichen 
behandelt werden. 

Da die Multiplikation im Ring uber A/ausgefuhrt wird, kann bereits nach jeder Addition erne Modulo*Opera- 
tion ausgefQhrt werden. Auch hierdurch werden groBe Zahlen vermieden und betrachtlidie Rechenzeit einge- 
spart Samtliche Zahlen jedes Schrittes sind nun kleiner als Auf diese Weise wird die maximal erforderliche 
Gr5Be des Speichers auf die Lange von N reduziert, was mit einer Halbierung der erforderlichen Chipfl^che 
verbundenist. 

BeUHchtliche Bedeutung fOr das Kryptographie- Verfahren liegt in der vorteiihaf ten Anwendung von Look- 
Ahead-Algorithmen, denn hierdurch wird die maximale Anzahl erforderlich werdender Additionen fur die 
Muldplikationen und Subtraktionen fQr die Modulo-Operationen weiter betrachtlich reduziert Das sich die 
Einf ahrung der Look-Ahead- Algorithmen in einem Gewinn an Rechengeschwindigkeit auszahlt, ergibt sich aber 
erst durch die Einfuhning der erfindungsgem^Ben neuen Look-Ahead-Algorithmus fQr die Modulo-Operatioa 
denn die bloBe Anwendung bekannter Look- Ahead-Algorithmen auf die Multiplikationen wtirde keinesfalls 
einen Zeitgewinn erbringen. Erst wenn die mittlere Reduktion des mit der Module-Operation verbundenen 
Rechenaufwands der mit der Muitiplikadon maglichen Rechenreduktion entspricht, ergibt sich ein optimaler 
Algorithmus, der die Redienzcit auf ctwa 1/3 reduziert. Diese vorteilhafte Einspaning an Rechenzeit hSngt mit 
dem weiter unten noch erl&uterten 'Schwimmen* zusammen; wthr nd Zabsolut verschob n wird, erfolgt die 
Verschiebung von N reladv zu 2; so daB die beklen Verschiebe-Raten voneinander entkoppelt sind 

Der letzte Vorteil in der Kette von Verfahrenssdiritten besteht in der Verknflpfung der sich aus der Multipli- 
kation ergebenden Addition und der sich aus der Modulo-Operation ergebenden Subtraktion zu einer einzigen 
Operation, der 3-Operanden-Additi n. Mit ihrer Hilfe braucht die Zykluszeit nicht erweitert zu werden, d nn fQr 
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die 3-Operanden-Addition wird die gleiche Zeit benotigt wie fur eine einfache Addition. Hierdurch wird eine 
Verdoppelung der Rechengeschwindigkeit bewirkt 

Einerseits resultiert ein Zeitgewinn aus den vorteilhaften Anwendungen von mathematischen Transformatio- 
nen auf die einzelnen Verfahrensschritte, andererseits ergeben sich aus der erfindungsgemaBen Architektur des 
Kryptographie-Prozessors weitere Verbesseningen. Durch die Organisation zu baumartigen Strokturen konnen i 
die einzelnen Elemente gleichzeitig eine groBere Anzahl von Informationen abarbeiten. Auch hierdurch wird die 
Rechenzeit weiter betrachdich verkurzt 

Mit der erfindungsgemalJen Blockstniktur reduziert sich die Rechenzeit fur cine 660-Bit-Addition auf die 
ULnge einer ZO-Btt- Addition. 

Zusammenfassend ist festzustellen, daB der erfindungsgemaBe Kryptographie-Prozessor die Ver- und Ent- i" 
schlusselung mit einer Rate von 64 000 Bits pro Sekunde durchfuhrt Dies gilt auch fur den ungunstigsten Fall, wo 
der Schlussei die maximale Lange von 660 Bits aufweisen soUte 

Die mit dem erfindungsgemaBen Kryptographie-Verfahren bzw. mit dem entsprechenden Kryptographie- 
Prozessor erzielbaren Vorteile werden augenscheinlich, wenn man seine "Ober-alles-Effizienz'* mit der einer 
Softwarc-Implementierung, z. B. auf einem 16 Bit breiten Bit-Slice-Prozessor (BSP) vergleicht. der speziell auf i ' 
die VerschlQsselungsaufgabe zugeschnitten worden ist: Heute erhaltliche BSFs haben eine Taktfrequenz von ca. 
10 MHz. Sic kdnnen in einem Zyklus zwei 16-Bii-Worte addieren bzw. subtrahieren und gleichzeitig das 
Ergebnis urn 1 Bit verschieben. Einen Barrel-Shifter haben sie nicht, so daB eine Shift-Operation seriell ausge- 
fOhrt werden muB. Unter diesen Bedingungen hat ein Look-Ahead negative zeitliche Auswirkungen. Fiir die 
Zahl A der Zyklen zur Ausfuhrung einer Operation wird angenommen. daB der BSP fur jeden Schritt seiner 
Hauptschleife nur einen Zyklus benotigt Sie besteht aus (vgL Fig, 3): 

1. Z[i\ : = Z[H + P[i] und 

2. Z[i] : = Z[/] + — N[4verschiebeZ[/Jum 1 Bit 

Das Mikroprogramm der BSPs kann so ausgelegt werden, daB sich die Schleife auf den zweiten Schritt 
reduziert wenn der erste aufgrund des Tests des entsprechenden Bits im Multiplikator entfallen kann. Da der 
erste Schritt mit einer Wahrscheinlichkeit von 1/2 ausgefuhrt werden muB, hat A einen Wert von 1^. Fur den 
Vergleich folgt: 

yRS.4.KP = Ap. . Erw(sz) ' L(N) • A ^ 30 MHz 2,27 • 660 - 1,5 
/bsp B 10 MHz 16 

Der Vergleich zeigt, daB der erfmdungsgemaBe Kryptographie-Prozessor selbst spezialisierten Abstimmun- 
gen aus Hard- und Software urn mehr als zwei GroBenordnungen uberlegen ist Ist der RSA-Algorythmus auf j » 
nomalen Rechenanlagen nur softwaremaBig implementiert, kann von Unterschieden im Bereich von 10 000 
ausgegangen werden, da die Hauptschleife bei weitem nicht so effizient ausgefuhrt werden kann. 

Verglichen mit dem eingangs erwahnten Rivest-Prozessor ergibt sich eine 50-fache Einsparung an Verschlus- 
seiimgszeit trotz einer um ca. 30% grOBeren SchlOssellange. Diese gewaldge Stcigerung der Uber-Alles-Effi- 
zienz wurde sowohl mit der erfmdungsgemaBen Anwendung neuer Verfahrensschritte als auch durch eine 
spezielle Chip-Architektur ermoglicht 

Der erfindungsgemaBe Kryptographie-Prozessor arbeitet als sogenannter Coprozessor. Er besitzt zwei 
DMA-Kanale fur das Daten I/O und einen 8 Bit breiten Datenbus. Die Kodier- und die I/O-Einheit arbeiten 
parallel. Er stellt eine "Kryptographie-Box" dar, bei der die Ver- und Entschlusselungen von auBen nicht 
beeinfluBt werden konnen, bei der eine Signatur erzeugt wird, und zu der die Schlussei nur im verschlusselten i \ 
Zustand ubertragen zu werden brauchen. 

Im folgenden wird das erfindungsgemaBe Kryptographie-Verfahren und der darauf aufbauende Kryptogra- 
phie-Prozessor, mit deren Hilfe Daten nach der Public- Key-Codc-Mcthodc von Rivest, Shamir und Adleman 
(RSA) ver- und entschlusseh werden, anhand eines Ausfuhrungsbcispiels naher beschrieben. 

Im ersten Teil der Beschreibung, der sich mit dem erfindungsgemaBen Kryptographie-Verfahren befaBt, lo 
werden die gegenQber dem ursprOnglichen RSA-Verfahren gegebene Modifizierungen erl£Lutert Deshalb wird 
dabei hsLufig auf den ursprOnglichen RSA-Algorithmus Bezug genommen. Da das weitere Ziel der Erf indung in 
der Realisierung des Verfahrens in einem effizienten VLSI-Layout besteht, bleibt es nicht aus, bereits bei der 
Beschreibung des Verfahrens auf die entsprechenden Hardware-Moglichkeiten hinzuweisen. Insbesondere 
werden komplexe Operationen sowett in Grundoperadonen (Addieren, Subtrahieren, Verschieben usw.) zerlegt. >5 
bis skA jeder Schritt unmittelbar in den spater folgenden VLSI-Entwurf umsetzen laBt Deshalb spielt die 
Betrachtung des Aigorithmus aus der Sicht der Hardware eine wichtige Rolle. Viele Schrittfolgen des RSA-Al- 
gorithmus werden durch vorteilhaftere ersetzt 

Da die EntschlQsselung mathematisch identisch mit der Verschlasselung ist, wird deshalb im folgenden auf die 
beidenV rgflnge nicht gesonderteingegangea oo 

In der Zeichnung zeigen: 

Fig. la ein FluBdiagramm eines Aigorithmus fOr die Potenzierung fQr die Ent- oder VerschlQsselung eines 
Datums nach dem ursprOnglichen RSA-Verfahren, 

Fig. lb ein FluBdiagramm eines Aigorithmus fOr die Potenzierung fur die Ent- und Vcrschlussclung des 
gleichen Datums gemaB Fig- 1 a nach dem erf ndungsgcm^Ben Vcrf ahrcn. «»■» 

Fig. 2 ein FluBdiagramm des seriellen Aigorithmus fOr die in Fig. I erforderliche Multiplikation, wobei die 
Multiplikanten Elemente d r natQrlichen Zahlen sind, 

Fig. 3a ein FluBdiagramm des Multiplikations- Aigorithmus mit einem zusSLtzlichen Modulschritt, wodurch die 
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Multiplikanten hier Eiemente eines Restklassenringes fiber A/sind, 

Fig. 3b ein FluBdiagramm gemaB Fig. 3a, wobei die Modul-Rechnung auf eine Subtraktion reduziert ist. 
Fig. 4 ein Flufidiagramm eines Look-Ahead- Algorithmus fur die Multiplikation, der die Look- Ahead-Parame- 
ter serieQ berechnet, 

Fig. 5 ein Flufidiagramm eines Look-Ahead-Algorithmus fur die Module-Operation, der die Look-Ahead-Pa- 
rameter seriell berechnet. 

Fig. 6a ein FluBdiagramm gemaB Fig. lb, wobei die Multiplikation und anschlieBende Modulo-Operation zu 
einem MultMod-Schritt zusammengefaBt sind. 

Fig. 6b ein FluBdiagramm des in Fig. 6a verwendeten erfindungsgemaOen MuUMod-Verfahrens, ausgefQhrt 
mit Look-Ahead, 

Fig. 7 eine Elementarzelle zur Realisierung einer MultMod-Schleife in einem Schritt, 

Fig. 8 die Zusammenfassung von vier Elementarzellen gemHB Fig. 7 zu einem 4-Zenen-Block mit einem 
hierarchischen Carry-Look-Ahead (CLA)-EIement, 

Fig. 9 die hierarchische Zusammenfassung von jeweils funf 4-Zellen-Bldcken gemaB Fig. 8 zu einem 20-Zel- 
ien-Blodc 

Fig. 10 erne vollstandige VerschlOsselungseinheit mit mehreren 20-Zellen-Blocken gemaB Fig. 9, sowie mit 
einer Steuereinheit, 

Fig. 11 das Blockschaltbild eines Kryptographie-Prozessors, 

Fig. 12 ein Blockschaltbild einer Steuerdnheit gemaB Fig. 10 nach Vorgabe der Loook-Ahead-Algonthmen 
gem&B Fig. 4 und 5, 

Fig. 13 ein hierarchischcs Cany-Look-Ahead-Element, wie es bei den 4-ZeIlen-Biacken gemaB Fig. 8 zur 
Anwendung gelangt. 

Fig. 14 die Verschaltung der Carry-Look-Ahead-Elemente gemaB Fig. 13 innerhalb der Hierarchic der 20-Zei- 
len-Blocke, 

Fig- 15 ein Zustandsdiagramm bezugUch einiger Schrittfolgen des in Fig. 10 als Puffer ausgebildeten obersten 
20-Zelien-Blockes, 

Fig. 16 eine schematische Blockstruktur zur Verdeutlichung des Informationsflusses, und 
Fig. 17 einen Floorplan der Anordnung von Elementarzellen auf einem Chip. 

Unter Bezugnahme auf Fig- 1 wird nachf olgend zunachst der Verf ahrensschritt fur die Potenzierung erlautert 
Bei dcrZerlegung in einfacfae Gnindoperationen wird die Potenzierung in durchschnittlich 1,5 • Multiplika- 
tionen zerlegt Eist der Exponent und Zj(x) ist definiert als 

1(a) : B AnzahlderbinarenZiffernvonx 

Die Zeitkomplexitat des Algorithmus ist 0(I(£)). Seine Grundidee ist, den Exponenten binar darzustellen, also 
in eine Summe von Zweierpotenzen zu verwandeln. Mit den Potenzgesetzen wird die Summe im Exponenten in 
ein Produkt von Potenzen der zu potenzierenden Zahl Pumgeformt Die e-te Potenz hat als Exponent die e-te 
Zwcicrpotenz oder die Null, je nachdem^ ob an der e-ten Stelle im ursprunglichen Exponenten eine 1 Oder eine 0 
steht. Die Faktoren dnd also Quadrate bzw. die ZsM 1. 

^£;..2'- HE}") 
pf = />- « = n/^>2'; £^ir{0,l} 

as (/3Bc)2 

Die Stelie des niederwertigsten Bits wird definitionsgemaB mit Null bezeichnet Deshalb stdit das hochstwer- 
tigste Bit an der Stelle £(£) — 1. 

Das (e -h l)-te Quadrat lafit sich leicht durch Quadratur des e-ten berechnen. Es ist deshalb vorteilhaft, fur das 
Produkt cm dgenes Register Czu reservieren, Der Inhalt von Regsiter P wird dann in jedem Schritt quadriert 
und wieder dann gespeichert Nach der Quadratur enthait Pdas c-tc Quadrat, da nach dem (e — l)-ten Schritt in 
Pdas (e — l)-te Quadrat eingetragen worden war. 

Im Zwischenregister C steht zu Beginn die 1. Steht im Exponenten Ean e-ter Stelle eine 1, so wird im e-ten 
Schritt Cmit Pmultipliziert und wieder darin gespeichert, andemfalls wird Cnicht verandert Da das Register P 
zu diesem Zeitpunkt das e-te Quadrat enthait, wird das obige Produkt, wegen der Glekhheit, P hoch E 
berechnet Nach dem letzten Sduitt steht das Ergebnis im Register C 

Das im FluBdiagramm der Fig. la dargestellte RSA-Verfahren enthait im oberen Teil den Potenzieralgorith- 
mus. Im unteren Teil der Fig. la wird m letzten Schritt Cmod N berechnet, d. h. der letzte Schritt des RAS-Al- 
gorithmus. Weil auf die Restklassenarithmetik wSLhrend der Potenzierung verzichtet wurde, hat Cbci grofien 
Zahlen eine astronomische StcHenzahl angenommen. 

Dies verhindert der in Fig. lb dargestellte Algorithmus des erfindungsgemSBen Verfahrens. Er nutzt das 
Kongruenzgesetz 

(a mod di*{b mod c) = (a • b) mod c 

Das jeweils entstehende Produkt wird durch die Modulorechnung auf den ReprSsentanten der R stklasse 
abgebildet- Der Reprftsentant ist das Element der Restklasse, das auch Element des Ringes isL Dieses El ment ist 
eindeutig. d. h. es gibt nur in Element in jedcr Restklasse, das die Bedingung rf Qltt 
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Bezogen auf den Algorithmus bedcuten 
a, b Produkte aus dem Schritt e ^ 1, und 
cderModuL 

Die Aussage der Kongnienz ist: das Ergebnis der Rechnung im Schritt e fallt in dieselbe Restklasse, 

a) wenn man die entstandenen Produkte aus dem Schritt e — 1 auf ihre Repr^entanten abbildet und dann 
im Schritt e die Reprasentanten mite'uiander multipliziert oder 

b) wenn man im Schritt e die Produkte aus dem Schritt e ^ t miteinander multipliziert und dann dieses 
Produkt auf seinen Reprasentanten abbildet 

Der Fall a wird im rechten Algorithmus (Fig. lb) bei jedem Schleifendurchlauf auf die Produkte angewandt 
Der Fall b ist im linken Algorithmus (Fig. la) realisiert, allerdings nur ein einziges Mai als letzter Schritt des 
Algorithmus. Durch die standige Abbildung hsiben die benutzten Register im rechten Algorithmus eine pianbare 
GroSe bekommen. Die Zahlen, die sic speichem mussen, sind maximal doppelt so lang wie die Lange des 
Modulus: Dies ist der Fall in dem Zettraum zwischen Multiplikadon und der Modulorechnung. 

Die einzelnen Schritte des umgeformten Algorithmus lassen sich auf der Ebene der Potenzierung nicht weiter 
zerlegen. Es besteht auch nicht mehr die Notwendigkeit dafur. Die Chip-Flache, die die Potenzierung benotigt, 
hat durch die standige Modulorechnung eine obere Grenze erhalten. 

' Nachfolgend wird nun unter Bezugnahme auf Fig. 2 der Verfahrensschritt fiir die Multiplikation erlautert Bei 
dem erfindungsgemaBen Verfahren wird die Multiplikation durch einen seriellen Algorithmus gelost Er zerlegt 
die Multiplikation in I(A4) Shift-Operationen und durchschnittlich 0^ • L(A/) Additionen. Mit "Afist im folgen- 
den der Multiplikator bezeichnet 

Der Platzbedarf hangl linear von I(A^ ab, denn fur diesen Algorithmus ist eine Arithmetik-Lodic-Unit (ALU) 
der Gr5Be I(M) vorgesehen. so daB die Addidon in einem Schritt geschieht Das gleiche gilt dann auch fiir die 
Shift-Operation. Beide bendtigen daher eine konstante Zeit fiir ihre Operation. Zudem kann die Addition parallel 
zur Shift-Operation ausgef uhrt werden. Daraus folgt f Qr die Zeitkomplexitat 

Tmui « I<AO ♦ ma^Jshift, TAdd) = c * l^M^ 

Sie hangt, wie def Platzbedarf. linear von der Lange von M ab. Wenn der benotigte Platz allerdings die 
Moglichkeiten der Integration uberschreitet, d. h. M und damit L^M) einen bestimmten Wert ubersteigt, ist 
dieser Algorithmus nur in modifizierter Form verwendbar. Da dies bei der ins Auge gefaBten GroBe von 660 
BinirsteUen (200 Dezunalstellen) nicht der Fall ist, wird dieses Problem in diesem AusfQhrungsbeispiel nicht 
diskutiert. 

Der in Fig. 2 als FIuBdiagramm dargestelite serieUe Algorithmus fur die MultipUkation baut, ahnlich wie der 
vorher anhand der Fig. 1 beschriebene Algorithmus fOr die Potenzierung, auf der Binardarstellung eines Einga- 
beparameters auf. Hier ist es der Multiplikator Af: 

L(.m-\ LiAf} 

Die Multiplikation wird in Additionen zerlegt Pwird im Schritt m zum Zwischenergebnis Zaddiert, wenn an 
der (I(Af) — 7n)-ten Stelle im Multiplikator eine 1 steht, andernfalls bleibt Z unverandert. Danach wird die 
Schleife noch (Z(Ai) in)-mal ausgef uhrt Wegen der Verdoppelung von Zzu Beginn jedes Schleifendurchlauf s 
wird die Summe Z + Pdes m-ten Schrittes (£<A0 — m) mal verdoppelt Das entspricht der Multiplikation mit 
der Zweierpotenz. 

Zusanmienfassend nutzt der Algorithmus aus, daB eine Multiplikation mit einer Binarziffer entweder den 
Muidplikanten selbst oder Null ergibt Weiterhin fuhrt er die in jedem Schritt erforderliche Multiplikation mit 
einer Zweierpotenz auf eine Verdoppelung von Z zuruck. In der Binardarstellung ist die Verdoppelung eine 
einfache Shift-Operation ura ein Bit nach links (definitionsgemafi steht das niederwertigste Bit rechts), 

Der Modulo- Verfahrensschritt ist schematisch in Fig. 3 dargestellt Wihrend der Potenzierung ist nach jeder 
Multiplikation eine Module-Operation auszufuhren, urn eine zum Produkt kongruente Zahl aus dem Restklas- 
senring zu erhalten. Der in Fig. 2 beschriebene Algorithmus betrachtet die beiden Multiplikanten als Elemcnte 
der natOrlichen Zahlen, nicht des Restklassennnges Qber N. Deshalb wird im Potenzieralgorithmus nach jeder 
Multiplikation ein Moduioschritt ausgefOhrt 

Nach dem erfindungsgemaBen Verfahren wird auch die Multiplikation in diesem Restklassenring ausgefuhrt 
DafQr wurde der herk5mmlichc Algorithmus an einer Stelle verSndert: Am Ende der Schleife wird das Zwi- 
schenergebnis Zauf seinen Repr^entanten abgebildet 

Das ist notwendig, weil Zerstens verdoppelt und zweitens P(yvci ungunstigsten Fall) zu ihm addiert wurde. 
Deshalb kann Zam Ende der Schleife Werte haben, die grdBer oder gleich des Modulus TV sind 

Wird dagegen zum SchluB noch ein Modulosdiritt hinzugefQgt, hat Z nach dem Verlassen der Schleife immer 
Werte, die im erlaubten Zahlenbereich des Ringes li gen. Das Kongruenzgesetz, das cs criaubt, den Moduio- 
schritt vom Potenzieralgorithmus in den Mutltplikationsalgorithmus zu verlegen. lautet 

(a mod ^ + (6 mod c) ■ (a + b) mod a 

Wie bei der Potenzierung ist auch hier die Aussage der Kongruenz: das Ergebnis der Rechnung im Schritt m 
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Wit in dteselbe Restklasse, 

a) wenn man die entsundene Surame im Schritt m — 1 auf ihren Reprasentanten abbildet iind dann im 
Sdhritt i73 mit diesem weitcirechnetoder 

b) wenn man im Schritt m zu der Siunme aus dem Schritt m — 1 etwas addiert und dann diese Summe auf 
ihren Reprasentanten abbtldeL 

Da die Multiplikadon in eine Sununenfolge umgewandelt wurde, iautet der SchluB: Es ergibt das gleiche 
Ergebnis, zwei Zahlen zu multipUzieren und dann die Modulorechnung auszufuhren, oder nach jeder Addition in 
der zerlegten Mutliplikation sofort Modulo zu rechnen. 

Das Zwischenergebnis Zdes in Fig. 3a dargesteilten FluBdiagramms kann in der Schleife nicht beliebig groBe 
Werte annehmen, wenn es beim SchJeifeneintritt einen kleineren Wert als Nhatte 

N>Z,P-> 3 //>Z: = 2*Z+P. 

In dem erfindungsgemaBen Verf ahren ist die herkdmmliche Modulorechnung durch eine einzige Subtraktion 
ersetzt. 

Wenn Zam Ende der Schleife gr5Ber oder gleich Nist, wird lediglich Nbzw. 2 Nvon Zsubtrahiert, und der 
Wert von Zist wieder kleiner als K Diese Schritte sind im FluBdiagramm der Fig. 3b enthalten. 

Fur die Subtraktion wird keine zusatzUch Logik benotigt, denn nach der Negation des Subtrahenten wird sie 
zu einer Addition und ist mit der Additionslogik berechenbar: 

a + 6 == a + (—6) 

Eine Zahl wird negiert, indem jedes einzeine Bit negiert wird. Dazu muB abschlieBend noch die Zahl 1 addiert 
werden. Das ist im VLSI-Entwurf mit einem Inverter pro Bit realisierban Da jedodi in der Speicherzeile beide 
Informationen voriiegen,das Bit und das invertierte Bit. wird auf einen zusatzlichen Inverter verzichtet 

Bei der Addition zweier Zahlen wird an die niederwertigsten Bits kein Obertragsbit (Carrybit) ubergeben. Soli 
nun subtrahiert werden. werden die negierten Speicherbits an die Additionslogik angelegt und gleichzeitig wird 
den niederwertigsten Bits ein Carrybit signalisiert 

Dieser Verfahrensschritt, der die Multiplikation mit der Modulo-Operation in erftndungsgemaBer Weise' " 
miteinander verbindet, wird im Iblgenden MuItMod genannt 

Die Erhohung der Rechengeschwindigkeit durch Look-Ahead-Verf ahren laBt sich anhand von Fig. 4 erlau- 
tem, Analysiert man den MuItMod-AIgorithmus und bedenkt die Moglichkeiten der Parallelisierung, so ergibt 
sich. daB viele Schritte umsonst ausgefuhrt werden. Genauer gesagt, ganze Schleifendurchlauf e (Zyklen) konnen 
entfallen, wenn auB^ den beiden ersten, unabwendbaren Schritten keine der bedingten Schritte auszufuhren 
sind. 

Entfallt ein Zyklus, dann wird kein Schritt der Schleife ausgefuhrt, auch die unbedingten nicht Dies muB bei 
dem nachsten, nicht ausgefailenen Zyklus bedacht werden. Zuerst muB jedoch berechnet werden, wieviel Zyklen 
ubersprungen werden konnen. Sei nun sz — 1 die Anzahl der ubersprungenen Zyklen ^s^z^ist der Schiebebetrag 
(Shift-Betrag) der Multiplikation und behalt im folgenden diese Bedeutung). Mit dieser Information konnen die 
ersten beiden Schritte der ubersprungenen Zyklen im jetzigen Zyklus mitausgefuhrt werden {sz — 1 Qbersprun- 
gene Zyklen plus dem aktuellen Zyklus ergibt 5z Zyklen !): 

1 . Zwird nicht um 1 Bit (Verdoppeiung), sondem um sz Bits nach links verschoben und 

2. m wird nicht um 1, sondem um szerh^hL 

Das Verschieben um sz Bits ist mit einem Barrel-Shifter in einem Schritt machbar (Conway; Mead, C, 
Introduction to VLSI Systems, Adison-Wesley Publishing Company, Inc, 1980). 

Methoden. die es ermoglichen. uberflussige Schritte zu uberspringen, werden Look- Ahead (vorausschauende) 
Verf ahren genannt Solche Verfahren mussen nach sorgfaltiger Analyse f iir jeden Algorithmus getrennt entwor- 
fen werden. Es muB vor allem gepruft werden, ob der zu erwartende Zeitgcwinn groBer ist als die Zeii zur 
Berechnung der uberspringbaren Zyklen. Bei der angestrebten Hardware-Impiemenderung des gesamten Algo- 
rithmus wird der Zeitgewinn durch nichts geschm&lert, da die Berechnung der Look-Ahcad-Parameter parallel 
zum l&ngsten Schritt, der Addition, geschieht 

Fur die Multiplikation ist scit langem ein Look- Ahead- Algorithmus bekannt Er hat zwei Zustinde: 

1. LA = 0, Nullen im Multiplikator werden Qberlesen und 

2, LA = 1, Einsen im Multiplikator werden Qberlesen* 

Die Schrittfolge des Algorithmus lautet: 

1. Setze : — 1. 

2. Setze m : — m + 1. 

3. Setze a : «- 1 — 2 * Z-A 

4. Es wird der 3-Bit-String MmM) — m. .UM) — in — 2] betrachteL Solange nicht fertig. fOhre in AbhSn- 
gigkeit vom 3- Bit-String und dem L/I-Wert die in der Zeile stehende Regel aus. 



36 31 992 



~ sz h \ : //I : = //I f I . 

= .«+!; m: = m + I. 

= AZ + I ; /n : = /n + 1 . 

= 1 - LA; Fenig, (11,111) 



LA - CI /,A ^ I 

>MHI Mi xz 

U)| 1 10 sz 

mo 10! 5r 

Oil 1(10 LA 

JOO Oil Fcrtig, (I,IV) 

101 010 Fertig. (I, IV) 

no 001 Unmoglich! 

Ill 000 Unmogiich! 

5. Im MultMod-Algorithmus ist auszufuhren: 

a. Schiebe Zum szBlxs nach links. 

b. Sctzc Z : = Z + a ♦ P. 

Die romischen Zahlen in den KJammem hinter der "Fertig^-Anweisung benennen die Regcln dieser Zeile. die 
erste Zahl steht fur LA = 0 und die zweite fQr LA = 1. Die 3- Bit-Strings, hinter denen '^Unmoglich" steht. 
konnen nicht auftauchen, da bei ihnen bereits im Schritt davor die Regel II bzw. HI zur Anwendung gekommen 
ware. Die Variable '^a^'dient nur a!s Zwischenspeicher fur die Information, ob Pbeim Additionsschritt negiert 
wird Oder nicht. In diesem Schritt fmdet in der Implementiening keine Multipiikatton statt, da a nur die Werte 
+ 1 und — 1 annehmen kann. Das Verschieben von Zund die Erhohung von m ist vorher schon erklart worden. 

Die Look-Ahcad-Regeln lassen sich leicht mit Hilfe der Summenzerlegung der Multiplikation verstehen. Sie 
lautet 

Li AD 

JII=I 

"5" soil in den folgenden Rechnungen die Stelle relativ zu L(^M) — m bezeichnen. an der im Multiplikator, von 
der Stelle L( A4) — m — 1 an gerechnet, das erste Bit ungieich LA steht 

Regel I besagt, wenn in einem 0-String eine isolierte 1 steht. dann addiere an dieser SteJle Pzu Z Mathema- 
tisch ausgedruckt: 

s m m+s 

Die Summanden der zweiten Summe sind Null auBer den Wert Lambda « m + 5; da an den Binarstellen 
L(Ai) — in — 1 . .L(Ad) — in — 5 des Multiplikator 00... 01 stehL 

Regel II ist am einfachsten im Zusammenwirken mit Regel III zu verstehen. Regel II schaltet von einem 
0-String auf einen 1-String um, wenn auf die erste 1 mindestens noch eine zweite folgt. An der Stelle der letzten 0 
wird Pzu Zaddiert Regel III ist zu II dual. Sie schaltet von einem 1 -String zu einem O-String um. wenn auf die 
erste 0 mindestens noch eine zweite folgt An der Stelle der letzten 1 wird Pvon Zsubtrahiert Sei sX die Stelle 
der ersten 1 und ^ die Stelle der ersten darauf folgenden 0, beide relativ von m gerechnet, so ergibt sich: 

A//.,v.-.* i""'--* = V;^* 2""»-^+ Xp*© + ^P* Muu^-x * 2"-'-'' 

= 2"*"-«*Z + 0 + ^F* 1 4c2^<«>--' 
;i-OT+*i 

= 2^**'»-'"*Z + 2^'«>-«"-^^o-i)^p^y24 



Aus der letzten Zeile folgt direkt Regel II und IIL Die Stellen zwischen den beid n Umschaltpunkten brauchen 
nicht beachtet zu werden, vorausgesetzt alle sind 1. Ein Beispiel soil dies anschaulicher machen. 
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3 ■ 6() = ISO 

II • 001 11 KM) = lOnOKH) 

' msl .vO /.(Af) = }<, in= I, 5l = 2, .t0 = 6 

lAM)- m- si, .L{M)-m-s2+l = 5. .2 
L(Af}-/;/-.vl-f I =6 
3 • (32+ 16 + 8 + 4) = 3 - (64-4) = 1«() 

Man spart zwei Additionen (somit zwei Zyklen), wenn man nicht ein Bit des Multiplikators nach dem anderen 
abarbeitet, sondern 1 -String als geometrische Summe betrachtet, die Summe berechnet und die unwesentlichen 
Bits uberspringt 

Bleibt noch Regel IV. Sie besagt, steht in einem 1-String eine isolierte 0, dann subtrahiere an dieser Stelle Pvon 
Z Es ergibt sich: 



= 2''*^'-'»* Z + V/>* 1 *2'-*^*~'« +P* (2^«*'»-"-^ - 2^<*'»-'"-^) 

Aus der Sicht des Look-Ahead-Verfahren sieht cs nach der Subtraktion von Pan der Stelle L(Ai) — (/n 4- 5) so 
aus, als sei der 1 -String nicht unterbrochen. Der Look- Ahead kann fortgesetzt werden. 

Mit dem im FiuBdiagramm der Fig. 4 dargestellten Look-Ahead- Algorithmus fQr die Multiplikation, der die 
Parameter serieli berechnet ist gegenuber der Version ohne Look-Ahead kein Zeitvorteil zu erreichen, denn pro 
Zykius kann nur ein Bit des Multiplikators getestet werden. Dieses FluBdiagraram dient daher auch nur der 
Umsetzung der Regeln in einen funktionierenden Algorithmus, Andererseits ist dieser Algorithmus fur die 
Hardware-Implementierung vorgesehen, jedoch geschieht dann die Berechnung der Look- Ahead- Parameter in 
einem Schritt parallel zu den Operationen anderer Rechenwerke, so daB am Ende eines Zykius sofort die 
Parameter fur den nachsten bereitstehen. 

In diesem Algorithmus kann der Shift-Betrag sz maximal den Wert cur Jc annehmen (cur^k ist der "Name" 
einer Variablen). Der Shift-Betrag gibt die Anzahl der Stellen an, um die em Register verschoben wird. Ein 
Maximum des Shift-Betrages wird von derTheorie nicht gefordert, wohl aber von der Praxis. Der Barrel Shifter, 
der Zin einem Schritt in die berechnete Portion schiebt, kann dies nur bis zu einem maximalen Betrag der un 
Entwurf f estgelegt werden rauS. k ist der maximale Wert den cur^k annehmen kann. Der Wert von cur_k wird 
vom noch zu entwerf enden Modulo-Look- Ahead- Algorithmus f estgesetzt. " 

Ist bis sz = cur_k keine Regel zur Anwendung gekommen, dann wird Zum k Bits nach links verschoben und a 
erhalt den Wert 0, d. h. P wird weder addiert noch subtrahiert. Die in einem Schritt machbare Arbeit muB aus 
Kosten- und Platzgrunden in mehrere aufgeteiit werden. Welcher Wert fiir k ein gunstiger KompromiB zwi- 
schcn den Forderungen der Geschwindigkeitssteigerung und der Reduzierung des benotigten Platzes ist, wird in 
einem der folgenden Abschnitte geklart 

Es folgt jetzt die Look-Ahead-Erweiterung auf den Moduloschritt (Fig. 5). Da aus Grunden der Effizienz die 
Muldplikation in den Restklassenring verlegt wurde, nutzt die im vorigen Abschnitt gefundene Verbesserung 
der Multiplikation durch Look- Ahead wenig, wenn nicht auch fur den Moduloschritt eine Methode zur Erzeu- 
gung von Look-Ahead-Parametem eingefuhrt werden kann. Sonst bremst der Moduloschritt den gesamien 
Ablauf, da er nach wie vor nur ein Bit pro Zykius abarbeiten kann. Das Verfahren ist auBerdcm einer Einschran- 
kung unterworfen. Der Erwartungswert des Shift-Betrages pro Zykius sollte annahemd ubereinstimmen mit 
dem des Multiplikations- Algorithmus. Ist dies nicht der Fall, bremst ein Look-Ahead- Algorithmus den anderen. 

Der erfindungsgemsUBe Algorithmus, der die geforderten Bedingungen erfuUt. und die genannten Regeln zu 
einem Algorithmus zusammenfaBu ist im FluDdiagramm der Fig. 5 dargesteiit Wie zuvor, ist auch dieser 
Algorithmus aus denseiben GrQnden seriell beschrieben. In der Hardware-Implementierung hat er dieselben 
Eigenschaften wie der Look-Ahead-Algorithmusder Multiplikation. 

Die Rahmenbedingungen fur den Modulo-Look-Ahead-AJgorithmus verlangen, daB die Erwartungswerte 
beider Betr&ge, um die pro Zykius verschoben wird, Qbereinstimmen. Bisher wurde nicht verschoben: Zist in 
jedem Zykius um ein Bit nach links verschoben worden und //relativ dazu um ein Bit nach rechts, d. h. A/ behielt 
seine Position bcL Dagegcn wird das Look-Ahead- Verfahren einen Param ter sn generieren, der angibt, um 
wieviel Bits N relativ zu Znach rechts zu verschieben ist "sn^ist im folgenden der aktuelle Shift-Betrag des 
Modulo-Look-Ahead- Algorithmus, und "n" gibt an, wieviel Bin&rstellen M zum jeweiligen Zettpunkt absolut 
nach links verschoben isL Im Register A/stehen demnach Vielfache des Moduls N, Deshalb wird Zam Ende der 
MultMod-schleife meistens kein Restklassen-Repr^entant sein. Es kdnnen drei FftUe eintreten: 
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I. sn > sz:N wird absolut um sn — sz Stellen nach rechts verschoben. Es muB Vorsorge getroffen werden, 
daB a nicht kleiner als 0 wird, da sonst mit Bnichteilen voa Nund nicht mit Vielfachen von Ngerechnet wird! 
Dies zerstort die Kongruenz. sn wird deshalb so berechnet, daB der Wert von n minimal 0 wird 
2. 577 = 5zes ist nichts zu beachten. 

3. sn < sz : N wird absolut um sz — sn Stellen nach links verschoben. Wenn die M6glichkeit besteht. dafl n 
im nachsien Schrirt einen bestimmten, eingestellten Wert AMA'ubersteigt, muB der MultipUkations-Look- 
Ahead-Algorithmus derart gebremst werden. daB n auf jeden Fall einen Wert kleiner oder gleich MAX 
annimmt So wird verhindcrt, daB n beliebig groB wird 

Im Algorithmus von Fig. 5 ist am SchluB die Begrenzung des maximalen Shift-Betrages von Zzu sehen. cur_k 
wird so gesetzt, daB im ungunstigsten Fall (sz curjc und sb « 1) des nachsten Schrittes n gerade den Wert 
MAA" annimmt 

Ein Look-Ahead fur die Modulorechnung erfordert, unabhangig von den eingesetzten Regetn, daB mit 
Vielfachen von N gerechnet werden kann. Der Vorteil ist, daB sich die Multiplikation und die Modulorechnung 
im allgemeinen nicht gegenseitig behindern. Eine Behinderung tritt nur dann ein, wenn im oben aufgcfuhrten 
Fall 1 Oder Fall 3 der Wert von sn bzw. sz fur einen Schritt nach oben begrenzt wird Ein Nachteil ist, daB die 
Register groDere Zahlen als die des Moduls speichem mussen. Fur diesen Oberlauf muB im VLSI-Entwurf ein 
Puffer vorgesehen werden. 

Dieser Nachteil gilt aber nur fur zwei Register: Zund N, AuBerdem ist die PuffergroQe durch AMATnach oben 
begrenzt Der VLSI-Entwurf kann also weiterhin von konstanten GroBen aller Register und nun auch des 
Puffers ausgehen. Welche GroBe der Puffer haben sollte, damit die Erwartungswerte nicht zu sehr sinken. wird in 
einem folgenden Abschnitt besprochen. 

Es mussen noch die Berechnungsregein der Look-Ahead-Parameter beschrieben werden, Dazu wird die Zahl 
ZDN benotigl Sie ist definiert als zwei Drittel des Wertes vom Register N: 

ZDN: = j*N. 

Der Algorithmus tautet: 

l.SetzesT? : = 0. 
2.Setze Z? : = 0, 

3. Solange der Absolutbetrag von Zkleiner oder gleich ZDNisi, f uhre aus: 

a- Setze sn : « sn + 1, 

b. setze m « n — 1 und 

c. schiebe ZDN um 1 Bit nach rechts. d h. dividiere ZDN durch 2. 

4. Setze b : « 2 » Z[Vorzeichen] — 1. Wenn das Vorzeichenbit den Wert 0 hat dann ist Zpositiv, andern- 
falls ist Znegativ. 

5. Im MultMod-Algorithmus ist auszuf Qhren: 

a Schiebe Num sn Bits relativ zu Znach rechts und 

b. setze Z: =Z-fi?»Aidh. wenn Zpositiv ist, dann wird von Zsubtrahiert, andemfalls wird N zu 
Zaddiert 

Im letzten Schritt wffd in der Hardware-Implementiening nicht multipliziert, da b nur die Werte —1,0 und + 1 
annehmen kann: an die Additionslogik wird der Wert —N,0 oder +N angelegt Die Berechnung von ZDN 
bereitet auch keine Schwierigketten. denn ZDN wird nicht jedesmal neu berechnet sondem nur ein einziges Mai 
bei der Schlusselubergabe und wird dann derselben Shift-Operadon unterworfen wie N So blcibt die Relation N 
zu ZDNcrhaltcTL 

Nach der Schlusselubergabe muB ZDN jcdoch berechnet werden. Zwei Drittel bintr dargestellt sind 
0.101010101. . Die Berechnung von ZDN geschieht demnach so: 

l.SetzeZ : « 0. 
2.SetzeZ : = Z+ N. 

3. Schiebe Zum 2 Bits nach links. 

4. Springe zu Schritt 2 zuriick, wenn ZDN noch nicht genau genug berechnet ist 

Der letzte Schritt enthalt eine unscharfe Abbruchbedingung. ZDN ist genau bestimmt wenn jedes Bit des 
MulUplikators "Zwei DritteP abgearbeitet ist Die Anzahl der Bits von •'Zwei Dritter, die noch einen EinfluQ auf 
den Vergleich von Zmit ZDN haben, ist dieselbe, wie die Anzahl der Bits, die der Komparator hat, der den 
Vergleich durchfOhrt Die Breite des Komparators wird wiederum durch die vcrlangte Genauigkeit des Verglei- 
dies bestimmt Wie im nidisten Abschnitt gezeigt wird, sind 10 Bits roehr als ausreichend Daraus folgt daB 
ZDN in wenigen Schritten berechnet werden kann. 

Wie gerade erwthnt werden von ZDN nur ein paar der hdchstwertigsten Bits zum Vergleich rait Zbenutzt 
Dies bewirkt natOrlicfa, daB der Komparator ab und zu ein falsches Ergebnis lief rt denn ein hundertprozentig 
sicherer Vergleich mOBte alle L(N) Bits berOcksichtigen. Dies ist aus PlatzgrOnden nur schwer zu realisieren. 
Was aber viel schwerer wiegt ist die Tatsache, daB die Vergleichszeit dann ihnlich groB wird wie die normale 
Additionszeit Der korrekte Vergleidi w&re also ein Phymissieg. 

Welche Auswirkungen hat es aber, wenn der {Comparator eine falsche Entscheidung getroffen hat? Dann hat 
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sn \m nachsten Zyklus den Wert 1. andemfalls hatte sn dnen Wert groBer als 1 gehabt Es verschlechert sich 
demnach der aktuelle Shift-Betrag des nachsten Zyklus auf den Wert 1. Beweis: 

Wenn der Comparator richtige Ergebnisse gelief ert hat, dann htsnso bestimmt worden, daB 

2 -*l.*yv<|z|<2^^"-"*y *iV 

ist wird nun um sn Bits nach rechts verschoben, ± h, A/wird durch 2 hoch sn dividiert Dann wird N, wenn Z 
negativ ist, zu Z addiert, andernfalls wird N von Z subtrahiert Daraus folgt, daB N vom Absolutwert von Z 
subtrahiert wird. Das Ergebnis wird wieder in Zabgespeichert 

^*N-N<\Z\'-N<'^^N- N 



3 



-y-*A^<Z'<y* AT (1) 
0 = >|Z'|<y*/V, 

Da der Absolutwert von Zjetzt kJeiner gleich einem Drittel von iVist, muB im nachsten Zyklus sn > 1 sein: 

|Z|<y*iV< = >|z|<2-Uj* vV - 2-' *ZDN = >sn>\, (2J 

Teil 2 ist damit bewiesen. 

Fallt dagegen der Komparator eine Fehlentscheidung, ist die Ungleichung I nicht erfulit Eine Fehlentschei- 
dung wird z. B. dann getroffen, wenn ZDiVdurch Rundungsfehler bei der Berechnung etwas kleiner geworden ist 
als zwei Drittel von Liegt Zdann in der Nahe, aber noch unter von zwei Drittel von H ist die Vergleichsaussa- 
ge: ZDN ist kleiner als Z Tatsachlich jedoch hatte diese Aussagc erst eine Bitstelle spater erfolgen mOssea 
Daraus folgt: 

\Z\<\*N 

Z': -IZl- A^<y *yV-/V=-^ 

= >\z-\>f 

Die Voraussetzung (1 ) ist nicht mehr erfulit. Es folgt 
IZ|>y = >|Z|>2-' *y*A^ = 2-^ *ZDN^>sn--\'<f'e'd 

Die Auswirkungen eines Fehlers des Komparators sind also relativ harmlos. Das gibt dem Designer einen 
weiten Spielraum in der Wahl der Komparatorweite, denn eine geringe Breite erhdht durch fehlerhafte Verglei- 
che nur die ZyklenzahL verfalscht aber nicht die Rechnung. So kann ein Komparator geringer Breite entworfen 
werden. der zwar hSufiger irrt, aber aufgrund des sehr schnell vorliegenden Ergebnisses trotzdem noch einen 
Geschwindigkeitsgewinn bringt 

Fur diese Abwagung muB die Fehlerwahrscheinlichkeit bekannt sein. Ein Fehler ereignet sich entweder durch 
Rundung im letzten Bit von ZDN oder in Bits, die niederwertiger sind als das niederwertigste Komparatorbit Sei 
"Vf die Komparatorbreite, dann ist die Fehlerhaufigkeit EpsUon 

2'^ 

AnschauHch f onnuliert besagt der Ausdruck, daB nur dann ein Fehler eintreten kann, wenn alle hdherwertigen 
Bits den Vergleich nicht entscheiden konnten. Das ist bei einer von 2<'Zahlen der Fall 

Da ausschliefilich die wahrscheinlichkeitstheoretisdten Erwartungswerte der Look-Ahead-Verfahren Qber* 
einstimmen» wurdcn sie notwendigerweise durch den MultMod-Algorithmus voneinander entkoppelt Dabei 
wird in jedem Zyklus Z absolut und N relativ zu Z vcrschobca Diese Entkoppiung wird hier "Schwimmen* 
gcnannt, und nachfolgend im Zusammenhang mit Fig. 15 n&her erUlutert. 

Der Zustand, in dem sich der Kryptographie-Prozessor jeweils befindet, ist anhand der Schritte a bis e in 
Fig. 15 dargestellL Die ObergSnge a. c und e verdeudichen den Verschiebevorgang, w§hrend b und dnicht naher 
erlduterte Additionen oder Subtraktionen bedeuten. Die gezeigten Rechtecke (TQrme) repr&sentieren die Regi- 
ster C(14). N{\B) und Z(20, 22, 24; Register des Kryptographie-Prozessors). Die Hdhe der Rechtecke betrdgt 
660 Bits + 20 Bits. 660 Bits ist die maximale Wortldnge. und 20 Bits ist die GrOOe eines Puffers, der di Entkopp- 



c: = P(Fehler) <-j. 
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Wennb!ispiekweisederSchiebebetrag(Shift-Betrag:Gr5BederVerschieb^^^ 
der Schiebebetrag der ModuloOperation ist. wird das Register Af um die Differenz der Schiebebetrage zum 
oberen Ende geschoben (vgL Schritte a und e); die oberstcn Bits des Registers N werden soinit teilweise in den 

^" m^gekSrtra°FSl'wird Nzum unteren Ende geschoben (Schritt 4 Die Oberwachung. daB A/nicht aus den 
Puffergrenzenhinauslauft,wirdweiteruntennochnahererlautert. , ^ ^ . - . . ♦ j,„„ 

Vor dem Schritt a sci A^bereits um 10 Bits in den Puffer geschoben worden. Der Schiebebetrag sznimmt dann 
die Werte "T.'V und T an. wie unten in Rg. 15 zu ericennen ist Dabei werden die genannten Werte « d'esem 
Beispiel nacheinander angenommen. Der Schiebebetrag si, welcher die Verschiebung von N relativ zu Zfestlegt, 
nimmt hier nacheinander die Werte -2". "3- und "l" an, das bedeutet. daB N absolut gesehen um sn = sz - s, 
verschoben worden ist. also ist sn nacheinander -l-.--r und T. Nach den Schntten * c und e ist Njeweds um 
11, 9 bzw. 10 Bits in den Puffer verschoben wordea Dieser Vorgang stellt das dar, was weiter oben mit dem 
Begriff"Schwimmen"bezeichnetwurde. . ^ , , j u» 

Im Schritt c ist der EinfluB der Lx>ok-Ahead-Grenze k fur den Fall von A: = 3 verdeuthcht. Obwohl der 
Algorithmus fQr j/eine Verschiebung um 4 hStte vomehmen kdnnen. ist N relativ zu Znur um 3 Bits verschoben 
worden, und im Schritt edann um 1 Bit Daher ist N \m Schritt dvon Zweder addiert noch subtrahiert Das 
bedeutet also, daB das Vorzeichen 6 in Fig. 5 den Wert "(T angenommen hat ^ ^ „ . , w» 

Nachfolgend wird der Verfahrensschritt der 3-Operanden-Addition eriautert Die Rg. 6 stellt das komplette 
RSA-Verfahren (Fig. 6a) dem nunmehr vollstandigen Ausfuhrungsbeispiel des erfindungsgemaOen Kryptogra- 
Dhie-Verfahrensgegenuber(Fig.6b). _ . . ,^ 

Hier sind die Abfragen, die in der letzten Fassung des MultMod-Algorithmus (Rg. 3) noch enthalten waren. 
durch die Aufrufe der beiden Look-Ahead-Algorithmen ersetzt Die Bcrechnung der Look-Ahead- Parameter 
geschieht parallel. Das soil durch die paraUelen Zweige. in denen die Aufrufe stattfinden ausgedruckt werden. 

In dieser Version des Algorithmus kann in Z ein negativer Wert stehen. nachdem die Schleife abgearbeitet 
worden ist Deshalb muB zum SchluB im MultMod-Algorithmus mit Look-Ahead eine Ergebnutkorrektur 
vorgenommen werden. Sollte Znegativ sein. dann ist Z + Npositiv. Dieser Zusatzschntt ist im FluBdiagramm 

^°dS MldtSkations- und der Moduloschritt sind auBerdem zu einem einzigen Schritt zusammengefaBt wor- 
den, der 3-Operanden-Addition. Es werden von der Logik pro Schritt nicht zwei. sondem drei Operanden 
gleichzeitig addiert, wie dies nachfolgend zu erkennen ist 

A[i\ 
+B[i\ 



Sm 510] = 0 
I 



A-lmax + 11 X{i + \\.. 

0 Y 



0 

/I y 10] 



Die 3-Operanden-Addition wird in zwei Abschnitte untertedt Im ersten Absdin.tt wird ^^^^if^l^^^^^^^^^ 
eine Summe der drei Bits der Operanden A. B und Cgebildet Die Summe von A [;1 B [/] und C[i\ kann die Werte 
0 3 anSS rie it also binar mit den zwei (1) Bits 5[1] und 5[0] darstellbar. Da die Summe an jeder Stelle 
Se"^k^nen aus den zwei Summenbite zwei neue rzusammengesteUt werden (i = Ob.s 

max): 

Y[i{ : ■= Sroi ytmax-H] : = 0 und 

1] XIO] : = 0. 

Im zweiten Abschnitt werden die beiden Zahlen auf die Qbliche Art und Weise addiert Die Verlangerung um 
em Bit bereitet keine Probleme. da das Ergebnis um mindestens ein Bit kOrzer ist als der »angste ^perancL 

Damit die Additionslogik nicht einen zu hohen Energieverbrauch hat. s.nd be. ihr an mehreren Stellen die 
Pullup-Transistorcn weggelasscn worden. Sie ist also in einem metasubilen Zustand. Kjppt ^ann be. d^^ 
Addi^rung in einen stabUen Zustand. so kann sie diesen nicht mehr selbstandig veriasscn. DeshaJb muB d>e lx>g.k 
am Ende eines Zyklus mit einem extemen Precharge-Signal wieder in den metasubden Anfangszustand ge- 
bracht werden. Wahrend dieses Zcitraums wird die Bitaddition eingeschoben. 

Der Kryptographie-Prozessor 

Dieser zweite Teil der Erfindungsbeschreibung befaBt sich mit dem Blockschaltbild und dem daraus resuWe- 

?Sg\°bt"d^Sung besteht dann. die Struktur eincr spezialjierten ^'-^S diVVzLsst^^^ 
RS A-Algorithmus optimal unterstOtzt. darzustellen. Mit dieser Struktur wird das B'ocl^haUbU^ d« P 
festgeleit Dieses enthalt genOgend Informationen. um emen darauf abgesUmmten Roorplan des Prozessors 

''"5?i7wi"rd d^?S"-Algorithm^ effizient unterstOtzt? Um diese Frage zu beantw rten. mOssen die einzelnen 
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Schritte des Algorithmus auf die Eigenschaft uberpruft werden, ob sie selten ausgefuhrt werden und/oder wenig 
Zeit benotigen oder ob das Gegenteil zutrifft Im ersten Fall ist es sinnvoUer, die Schritte durch Mikroprogramm 
2U realisieren. Bei den zeitkritischen Schritten dagegen muB die Hardware-Implementierung in die Elementar- 
zelle verlegt werden. Es werden die folgenden Schritte auf der Ebene des RSA- Algorithmus ausgefuhrt (siehe 
FluOdiagranun in Fig. 6): 

1. Die Initialisierung; den beiden Variablen Cund e werden die Startwerte zugev/iesen. 

2. Die Schleife; in ihr gibt es zwei Abfragen und die dadurch induzierten Sprunge, zwei Aufnife des 
MultMod-AIgorithmus und die Inkrementierung der Variablen a 

Jeder der aufgeiisteten Schritte wird entweder wahrend der Berechnung nur einmal ausgefuhrt, oder die 
Operation beschrankt sich auf wenige Bits, z. B. die binare Abfrage eines Exponentenbits, AuBerdem sind es 
einfache Operationen und benotigen daher kaum Rechenzeit Die Schritte werden also durch ein Mikropro- 
granun realisiert Eine einfache Stcuereinheit 42 wird dieses Problem ausfuhren (Fig. 11), 

Die Variablen, die mit einem kleinen Buchstaben bezeichnet sind, haben alle eine Zahlerfunktion.Sie arbeiten 
eng nait der Steuereinheit 42 zusammen, da dessen Entscheidungen von den ZMhlem abhUngen und andererseits 
die Zahler in Abhangigkeit der Entscheidungen der Steuereinheit de- bzw, inkrementiert werden, Sie mussen 
deshalb in enger Nachbarschaft zur Steuereinheit plaziert werden. Dies ist moglich, da deren Lange einen Wert 
von Id mM)) Bits hat (Id Logarithmus Dualis). Bei einer Schlussellange von 660 Bits sind sie 10 Bits lang. 

Dieselben Argumente sind fiir die Abfragen und die Zahler des MuItMod-Algorithmus gtUtig. AUerdings 
werden diese Aufgaben von einer separaten anderen Steuereinheit 36 (Fig. 10) ubemomnien, da die Berechnung 
der Look-Ahead-Parameter sehr zeitkritisch im Hinblick auf den Ablauf der MultMod-Berechnung ist. Die 
rechtzeitige Gencrierung der Shift-Betrage szund sn sowie der Information, ob und mit welchem Vorzeichen P 
und Nm die 3-Operanden-Addition eingeht, beeinfluBt die Zykluszeit wesentlich. 

Nicht b diese Steuereinheit gehoren die Operationen. die mit den L(N) Bit langen Zahlen durchgefiihrt 
werden. Fur ihre Speicherung in nachster Nahe der ausfuhrenden Logik sowie fur die Lx)gik seibst wurde eine 
Elementarzelle (Fig. 7) entworf en. 

Die benotigten Register und die Logik der Elementarzelle 10 ergeben sich aus Fig. 7. Danach umfaBt die 
Elementarzelle 10 ein Register 12, welches einen Multiplikator Menthalt, sowie ein Code-Register 14 und ein 
Datum-Register 16. Es folgt ein UD-Shift-Register 18, welches //enthalt und — 2 . . , + 2 Bit schiebt 

Weitcre Bestandteile der Elementarzelle 10 sind ein Barrel-Shifter 20. ein Bitaddierer 22, sowie ein Volladdie- 
rer 24, an den sich ein Carry-Look- Ahead-Element 26 anschlieBt 

Im RSA- und MultMod-AIgorithmus werden zusammen funf Register benddgtr 

1- Das Register 12 furden jeweiligen Multiplikator A/; die Lange des Registers ist IJ^N). 

2. Das Register 14 fur das verschlusselte Datum; in ihm steht wahrend der Berechnung die Variable Q deren 
Wert nach Abarbeitung des RSA-Algorithmus das Ergebnis der Verschlusselung ist Die Lange des Regi- 
sters ist I(iy). a 5 e 

3. Das Register 16 fur das zu verschlusselnde Datum; in ihm steht wahrend der Berechnung die Variable P, 
die zu Beginn des RSA-AIgorithmus den Wert des zu verschlusselnden Datums zugewiesen bekommt Die 
Lange des Registers ist L(A/). 

4. Das Register 18 fur den Modul N; in ihm steht wahrend der Berechnung ein Vielf aches des Moduls. Daher 
hat das Register die Lange £<A^ -h MAX Dieses Register hat auBer der Speicherfunktion die Fahigkeit die 
Variable N in einem Schritt urn mehrere Stellen zu verschieben. ISf wird in jedem Zyklus um sn Stellen 
relativ zu Z nach rechts verschoben. Gleichzeitig wird Zumsz Stellen nach links verschoben, d. h. A/^ wird 
absolut um snsz Stellen nach rechts verschoben. sz und sn konnen die Werte 1 ... 3 annehmen (der 
maximale Look- Ahead k wurde auf den Wert 3 festgesetzt). Der absolute Shift-Betrag, um den TV nach 
rexhxs verschoben wird, nimmt also die Werte —2 ... 2 an, Ein negativer Shift-Betrag nach rechts bedeutet. 
daB N nach links verschoben wird. In Aniehnung an ein LR-Shift-Register wird die geforderte Funktion mit 
dem UD-Shift-Register (UpDown) 18 realsisiert. das in jedem Halbzyklus in jeder Wchtung um 1 Bit 
verschieben kann. in einem VoUzykius also um 2 Bits. 

5. Das Register Z (umfassend 20. 22, 24) fur das Zwischenergebnis Zdes MultMod-AIgorithmus; dieses 
Register wird zum Beginn jedes Zyklus ausgelesen und am Ende mit dem neuen Zwischenergebnis beschrie- 
ben. Das Register muB also nur fur eine kurze Zeit die Variable Zspeichem. Am einfachsten wird diese 
Funktion durch die dynamische Speicherung jedes Bits von Z auf dem Eingangsgate eines Inverters 
realisiert Die Lange des Registers ist UN) H- MAX, da das Register 18 diese Lange hat und Zdessen Wert 
annehmen kann. Das Register Zist als Bestandteil des Volladdierers 24 auf zufassen. 

Die drei ersten Register 12. 14 und 16 werden als statische Speicher entworfen, da sie Qber langere ZeilrSume 
Informauonen speichem mOssen. 
Neben den besprochenen Registem gehort in den Elementarzellenentwurf : 

1. Ein Barrel-Shifter 20, der das Ergebnis der Addition, das Zwischenergebnis 2; um 0 . . 3 Bits verschieben 
kann. Die Einbeaehung des 0- Bit-Shift in die rahigkeiten des Barrel-Shifters ist notwendig, da die Multipli- 
kation vor der Modulorechnung f ertig wird und dann Znicht (!) mehr verschoben werden darf, 
Z Ein Bitaddi rer 22 hne Obertragungsbit (Carrybit). der die 3 Operandenbits in eine mit zwei Bits 
darstellbare Summe umwandelt. 

3, Ein Volladdierer 24; so wird ein 2-Bit-Addierer bezeichnet, der das Carrybit der n^chstniederen Stelle 
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verarbeitet und selbst ein Carrybit fur die nachsthohere Stelle generiert 

Nachfolgend wird das Multiplizieren in dem Ausfuhrungsbeispiel erlautert Die Additionslogik hat einen 
lesenden Zugriff auf die Register 16, 18 und 20, 22, 24, und sie kann in jedes Register eine Zahl abspeichern. P 
(Register 16) ist in jedem MultMod-Aufruf des RSA-AJgorithmus einer der beiden Faktoren. Wird Pimmer als 
Multiplilcant gewahit und der andere Faktor als Multiplikator, dann genugt es, wenn die Elementarzellenlogik 
nur die Register 16, 18 und Z(20, 22 und 24) auslesen kann, urn die erforderlichen Shift-Operationen und die 
3*0peranden- Addition ausfOhren zu konnen. 

Die MultMod-Steuereinheit 36 (Fig. 10) lost die Detailaufgabe, die Lxjok-Ahead-Parameter zu generieren. 
Aus diesem Grund wird der Multiplikator M im Register 12 parallel mit dem Register Z verschoben. Die 
MultMod-Steuereinheit 36 hat Zugriff auf die obersten Bits des Registers 12 (vgL Fig. 12). In AbhSLngigkeit dieser 
Bits generiert die MultMod-Steuereinheit 36 den Schiebeparameter sz, der aber nicht direkt ausgegeben wird, 
sondern in entsprechende Steuersignale umgesetzt wird. Diese Vorgange laufen in Fig. 12 in der Multiplikations- 
Sdiiebelogik 50 ab. 

Entsprechend wird der Verschiebeparameter sn in der Modulo-Schiebelogik 52 generiert Ein Vergleicher 38 
vergleicht die oberen Bits von 5zmit 1/3, 1/6, 1/12 . . . von M Entsprechend dem Algorithmus aus Fig. 5 wird das 
Vergleichsergebnis an die Modulo-Schiebelogik 52 geliefert Dieser Wert gibt den relativen Betrag an, um den 
das Register 18 relativ zu Znach rechts verschoben wird. Die Moduio-Schiebelogik 52 generiert aus diesem 
relativen Wert und dem Schiebebetrag der Multiplikations-Schiebelogik 50 den absoluten Schiebeparameter m 
Wiederum wird 573 nicht ausgegeben, sondern gleich in entsprechende Steuersignale umgesetzt 

Die in Fig. 12 dargestellten Begrenzer 54 und 56 haben die Aufgabe, den Schiebebetrag sz oder sn zu 
begrenzen, falls das Register 18 die Puffergrenzen Oberschreiten sollte, was weiter oben schon erwahnt wurde. 
Die Signaie des ersten Begrenzers 54 und des zweiten Begrenzers 56 werden von der Multiplikations-Schiebelo- 
gik 50 und der Modulo-Schiebelogik 52 mit verarbeitet 

Der erste Zahler 58 in Fig. 12 enthalt die Variable m (vgl. Fig, 6b), die angibt wieviel Bits des Multiplikators im 
Register 12 noch zu bearbeiten sind Der zweite Zahler 60 enthalt die Variable n (vgl. Fig. 6b bzw. Fig. 5), die 
angibt, um wieviele Bits das Register 18 (N) in den Puffer hine'mgeschoben worden ist 

Nachdem in Fig. 7 eine Elementarzelle 10 dargestellt ist zeigt Fig. 8 wie in einem hierarchischen Aufbau aus 
mehreren Elementarzellen 10 ein 4-ZelIen-Block 28 mit einem hierarchischen Carry-Look-Ahead-Element 30 
aufgebaut wird. GemiB Fig. 9 sind funf 4-Zellen-Bl6cke 28 in einer wciteren Stufe zu einem 20-ZeUen-Block 32 
aufgebaut, und wie Fig. 10 zeigt sind in einem weiteren hierarchischen Aufbau mehrere 20-Zellen-Bl6cke 32, 
von denen der oberste als Puffer 34 ausgebildet ist, zu einer Verschlusselungseinheit 40 mit einer MultMod- 
Steuereinheit 36 zusanmicngefaBt 

Eine gemaB Fig. 7 aufgebaute Elementarzelle 10 ist in der Zusammenarbeit mit der MultMod-Steuereinheit 36 
in der Lage, alle Schritte der MultMod-Schleife gemaO Fig. 6b in einem Zyklus zu erledigen, da sie fur jeden 
Schritt der Schleife (Verschieben des Modulus N um mehrere Bits im Register 18 (AO; Verschieben des Registers 
Z (20, 22, 24) um mehrere Bits im Barrel-Shifter 20; Ausfiihrung der 3-Operanden-Operation mittels des 
Bitaddierers 22 und des VoUaddierers 24 imd der Carry-Look- Ahead-Hnheit 26) eine spezielle Logik enthalt Die 
MultMod-Steuereinheit 36 berechnet (Fig. 12) parallel zur Arbeit der Elementarzelle 10 die Parameter des 
nachsten Zyklus. Damit ist die direkte Umsetzung des crfindungsgemaBen Verfahrens in dem VLSI-Entwurf des 
Kryptographie-Prozessors gegeben. 

GemaB Fig. 13 und 14 wurde ein Carry-Look-Ahead-Element 30 entwickelt. welches erkennt, ob sich Carry- 
Bits fiber groBere Distanzen beeinfluBen. Da dies im Kxyptographie-Prozessor bei der gewahlten Losung nur in 
einem von 30 000 Fallen so ist, bestimmt nicht mehr die Dauer der iSngsten (niederwertigste Carry-Bit beeinfluBt 
das hochstwertigste), sondern der durchschnittlichen Additionszeit die Zykluszeit der Additionslogik. 

Das Carry-Look-Ahead-Element (CLA) 30 ist hierarchisch aufgebaut Es verarbeitet die CLA-Signale der 
untergeordneten Stufe (linke Seite) und generiert ein CLA-Signal fur die ubergeordnete Stufe (rechte Seite). 

Ein Propagate-Signal einer Posidon bedeutet, daB der Obertrag dieser Position vom Ubertrag der nachsmied- 
rigeren Position bestimmt wird. Wenn alle Propagate^ignale aktiviert sind, generiert das hierarchische Carry- 
Look-Ahead-Element 30 das Propagate-Ausgangssignal dieses Elements. Ein Kill-Signal besagt daB diese 
Position keinen Obertrag hat Das Kill-Ausgangssignal wird aktiviert, wenn in den untergeordneten Elementen 
entscheidbar ist daB die hochstwertige Position dieses Elements keinen Obertrag hat 

Die Carry- Look-Ahead- Elemente 30 konnen nach einem Baukastenprinzip zu einer Baumstruktur zusammen- 
gesteckt werdea Sie reprasentieren dann jeweils eine groBere Anzahl von Carry-Bits. Der Vorteil der CLA ist 
die serielle Abarbeitung der Carry-Bits durch eine parallel-serielle (baumartige) Abarbeitung zu ersetzen. 
Dadurch wird die Additionszeit erheblich reduziert 

In der Realitat vervielfacht sich mit jeder zus^tzlich bendtigten Stufe alierdings die Linge der Signalpfade. so 
daB ab einer besdmmten BaumUefe die Zusammenfassun** benachbarter Bourne keinen Gewinn mehr erbringt 
Bei den Wurzeln dieser B&ume wird der Obertrag dann wieder seriell verarbeitet 

Letzteres ist in Fig. 14 zu erkennen, welche die Verschaltung der Carry-Look-Ahead-Elemente 30 in Verbin- 
dung mit einem Unterbrecher 62 zeigt Innerhalb eines Blockes von 20 Bits werden die Obertr&ge durch den 
CLA-Baum verarbeitet Von Block zu Block wird der Obertrag seriell weitergereicht 

Dieses Konzept ist ira Kryptographie-Prozessor 48 noch geringfUgig erwcitcrt Das nutzlos gewordene 
Block-Propagate-Signal wird dazu verwendet den Unterbrecher 62 zu aktivi ren, der die Taktsignale fflr die 
Dauer von 8 Taklcn unterdrOckt Dies ist die Zcit. die ein Obertrag durch die gesamte serielle Blockkette 
bendugt 

Wird also der Obertrag eines Blockes vom n&chstniederwertigen Block bestimmt ist das Block-Propagate-Si- 
gnal durch die BIock-CLA automatisch aktiviert Der Unterbrecher 62 wird eingeschaltet und die Blockkette 
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erhalt genugend Zeit, sich korrekt einzupegeln. 

Die Zykluszeit kann daher so cingcstellt werden, da& sie gerade ausreicht, den Obertrag direkt benachbarter 
BIdcke zu verarbeiten, Der Vortefl hierbei ist sehr groB, da unabhangig von der Anzahl der Stellen nur die Zeit 
eines Block-Obertrages benicksichtigt zu werden braucht Die Dauer der Berechnung einer 660-Bit-Addition ist 
daher nicht langer als die einer 20-Bit- Addition. Lediglich in einem von ungefahr 30 000 Fallen beeinfluBen sich 
die Carry-Bits uber mehr ais zwei BIdcke hinweg. Dies erkennt die CLA. Die Addition bendtigt dann nicht einen, 
sondern acht Zyklen. 

Aus der Zerlegung von RSA-Algorithmus in Grundoperationen und ihre Umsetzung in eine erfindungsgema- 
Be Schaltung kann die absolute Schrittzahl berechnet werden, die zur Verschiusseiung eines Datums (Nachricht) 
notwendig ist Daraus direkt abieitbar ist die Verschlusselungsrate in allgemeiner Form Vrsa, ^iig^ ausgedruckt in 
codierten Bits pro Sekunde: 



Sie ist 



£(A0 



3/2 • L(N) . t^y^ , • ^(M -4 

min(EnviszX Eiyvisn}) B 



yt r Bit 1 

3 ,2/»/x >4 1_ Sekunde J' 



2_ min(£ni'(j2), Envisn 



B 



— proportional zur Frequenz /des Prozessors, 

— proportional zur Anzahl der Bits L(A/)» zusammen verschliisselt werden, 

— umgekehrt proportional zur Anzahl 3/2 • L(A/) der MultMod-Auf rufe 

— umgekehrt proportional zur Anzahl HNyinitiiEnif{s^. Ers(sn)) der Additionen bzw. Subtraktionen je 
MultMod-Aufruf und 

— umgekehrt proportional zue Anzahl L(iV) - A/B der Einzelschritte, in die die Addition bzw. Subtraktion 
einer groBen Zahl zerlegt wird. Bist die Breite der ALU (je breiter die ALU ist. desto weniger Operationen 
sind zur Addition zwcier Langwortzahlen notwendig) und A ist die Addition der Zyklen zur Ausfiihning 
einer Operation. 

Fur den neuen Kryptographie-Prozessor ist Erw(sz) = Ers(sn) und A/B = \ILiN), weil die Datenbreite der 
ALU gleich der Lange der zu verschlQsselnden Daten ist und die ALU-Operation nur einen Zyklus benougt 
Daraus folgt in diesem Fall fur die Verschlusselungsrate des Kryptographie-Prozessors Vrsa, kp^- 

RSA,KP ^ Sekunde J 

Die Frequenz von 30 MHz ergibt sich aus einer Extrapolation einer in 5 p.m-NMOS-Technologie erreichten 
Zykluszeit von 100 ns (cin als Labormuster hergestellter Prototyp besteht aus ca. 5 000 Transistoren in 
5 jun-NMOS-Technologie) auf heute gangige 2 |xm-CMOS-Technologien. 

Aufgebaut ist das beschriebene Ausfuhrungsbeispiel des erfindungsgemaBen Kryptographie-Prozessors aus 
ca. 80 000 Transistoren in 2 jun-CMOS-Technologie. Die Chipflache betragt dann 5^ mm x 5^ mm. Bei der 
maximalen Schlussel-Lange von 660 Bits ver- und entschlusselt er im ungOnstigsten Fail Daten immer noch mit 
einer hohen Geschwindigkdt von 64 000 Bit/sec. 

Die logische Blockstruktur und der Floorplan ergeben sich aus Fig. 16 und Fig. 17. Fig. 16 zeigt das Block- 
schaltbild des Kryptographie-Prozessors 48, das sich unmittelbar aus den vorangegangenen Erlauterungen der 
Elementarzeile 10 ableiten laBt 

Bei der Konzeption des Floorplans gemaB Fig. 17 sind verschiedene Rahmenbedingimgen zu beachten: Zum 
einen die Struktur der Elementarzeile 10, weiterhin die Kommuntkation der Elementarzellen untereinander und 
schlieBIich die Gewahrleistung des Anschlusses ailer erforderlichen Steuersignale an die Elementarzellen. 

Vier Komponenten der Elementarzeile 10 tauschen mit den entsprechenden Komponenten benachbarter 
Elementarzellen Information aus. Das ist erstens das UD-Shift-Register 18 (vgl Fig. 7\ zweitens der Bitaddierer 
22, drittens der Barrel-Shifter 20 und viertens der VoUaddierer 24. Das impliziert, das die einzelnen Komponen- 
ten der Elementarzeile Obereinander plaziert Werden, denn dann entstehen keine zus&tzlichen Konununikations- 
wege zu b nachbarten Elementarzellen. Aus der relativ hohen Anzahl der Komponenten folgt, daB die Elemen- 
tarzeile der gcw&hlten Ausfuhningsform des Prozessors eine geringe Bauhdhe und eine groBe Breite hat 

Obwohl die Elementarzeile flach ist, ergibt ihre notwendige Stapelung einen schmalen hohen Turm. wie links 
in Fig. 17 zu sehen ist. Aus fertigungstechnischen Grtoden werden mdglichst quadratische Chips angestrebt 
Deshalb wird der Turm in einzelne Stapel aufgeteilt, die dann nebeneinander plaziert werden (Fig. 17 rechts). 
jeder zweite Stapel steht auf dem Kopf, weil dann die Elementarzellen, die vorher an der TrennUnie Obereinan- 
der benachbart waren, zu seitlk:hen Nachbam werden. Di bendtigten informationen werden an der Ober- und 
Unterseite der Stapel zu den Nachbarzellen Qbertragen. 
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Die noch nicht plazierten Eiaheiten des Prozessors, Hauptsteuereinheit 42 und l/O-Einheit 44, bendtigen im 
Verh§ltnis zur Verschlusselungseinheit 40 so wenig Platz, daB sie an belietpiger Stelie an ihrem Rand piaziert 
werden konnen. 
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